Re: [請益] Facebook 的朋友建議機制是怎麼回事?

看板ask-why (知識奧秘)作者 (豬也會跑哦)時間16年前 (2009/09/22 20:04), 編輯推噓11(11012)
留言23則, 4人參與, 最新討論串4/4 (看更多)
我也來回一下,因為我對這方面一直很感興趣,即社會模型部分, 所以facebook,還有大陸這邊的豆瓣這些sns網站都研究過一點, 因為我以前也一直想做這樣一個網站,我大概說一點我自己的想法 不一定真的是facebook真實的運作方式,不過我估計是這樣的 facebook這類sns的運作方式,其實比較類似大腦的神經元, 因為我對AI,蟻群這些蠻感興趣的,所以覺得這種想法是比較自然的 先不談facebook,先談下大陸的豆瓣網,這個也是sns, 但是這個比較多的是在推薦書籍,電影音樂上有非常有效的查找你感興趣的方法 我們建一個模型,裡面基本元素是結點,類似大腦的神經元, 比較基本的模型就是,這些節點每個都和其他節點相連不妨叫做關系,組成一個神經網絡 而大腦神經元是一個不斷翻新的系統,即如果你經常和某個節點發生關系, 那麼這個節點和你的連結就越緊密,緊密程度我們用距離來表示。 那麼我們就有了一個定義了節點,關系和關系的權重或者說是距離的網絡, 是一個基礎的數學模型。 不過這裡的距離不是數學意義上的距離,不符合三角不等式的距離, 可能只是個半度量空間或偽度量空間。 這個模型最簡單的例子就是twitter,節點之間的關系由follow確定, 節點之間的信息交流是完全模仿神經元的,即,信息會隨著距離的增大時間的增加 而衰減,當減弱到一定程度,則無法引起"注意"。 但是twitter過于簡單,所有的節點都是一個賬戶 那麼我聊facebook之前先說說豆瓣,豆瓣裡面每一本書每一個電影都有一個評論系統, 你可以為這些書加上tag,然後很多人就有一個對一本書的tag的一個描述集合, 略去少的,比如A書描述集合為(羅馬史,歷史,政治,愛德華.吉本,羅馬,社會, 西方史)那麼這些tag的信息就基本可以確定這本書的內容,這是一本羅馬帝國衰亡史 如果你給書加的tag和評分較高的大多是政治,歷史,西方,之類的,那麼豆瓣就會 猜一些你可能會喜歡的書,定位非常準確(亞馬遜好像也是這樣,不過亞馬遜我不太熟) 同樣的,tag不僅限于書,可能是電影,可能是一段評論,可能是一個運動,可能是一個 人,所有這些tag表示了你在網上喜歡關注的內容,即什麼對于你 這個節點是有吸引力的 那麼回到facebook,這裡我們不但將每個人,將每所學校,每個興趣,每個組織, 都設為一個節點 (這是比較簡略的說法,比較復雜的要用到數學裡面的范疇學,將節點和節點之間的 作用分類來運算) 這裡有一個哲學命題,別人如何定義你,你在別人的腦子裡是一些概念,一些事情的 集合。那麼同樣的,facebook這種sns你也是這麼定義的: 你是有所有和你有關系的結點以及這種關系的距離所定義的 舉個例子,這裡後面的值越高,表示聯系越緊密: 你: 結點 1/距離 a小學 19 b中學 21 c大學 109 某人A 1 某人B 40 某人C 300 星座 150 籃球 80 可見其中某人C和你關系最緊(親密的人), 然後c大學(可能就是你的母校),星座(你的興趣),籃球(興趣) 假設你現在有一個人D,這個人關系表裡面也有C,也有c大學 還有一個人F,這個人關系表裡有C,還有a小學 那麼fb將根據某個函數X(結點1,結點2) 求出X(你,D),X(你,F)得出一個數值,這個就是由這個空間的距離定義得出, 然後給你一個推薦D,明顯的,D和你關系更緊密 如果你選擇了D,那麼由于D和你有共同的結點C和c 那麼你關于c和C的關注度上修,或者說距離將會更近, 其社會學意義則是:你更喜歡C有關系的人,你更喜歡c大學的人 同時,這張表會隨著你的活動改變的,比如你最近很久沒有關注籃球結點, 那麼這個節點的重要性就會緩緩下降,如果你最近總是關注星座,說明這是你 這段時期的新愛好。 簡單的說,sns這種網站就是用結點盡可能模仿人的行為, 現實生活中,人是靠一個個概念結合起來的,比如共同的興趣(看書), 血緣關系,共同的朋友,類似的性格,類似的經歷,或者僅僅是因為你突然因為 某種原因對某事很感興趣。 順便說一下,這種節點只是比較初步的, 還可以更加細致,這裡就是各種sns的分野和實力差距了 比如,某人A,某人B,某人C都可以歸類為人,而某些可以歸類為物, 那麼如果sns發現你對人的興趣愛好大于物, 那麼就更可能通過人這條關系給你推薦人(即共同的朋友), 而非通過物(比如共同的愛好),這樣就更加符合你的喜好, 而且,你使用的越多,即你平時的所思所想在sns上表現的越多,則你的結點關于你的 思想的模仿就越精確,就越容易找到你想要的東西或人。 其實人的知識也可以做這樣一個概念,知識網絡也是一個很流行的概念, 之前很熱的wolframalpha也是基于此設計出來的。 但是由于成本考慮,有些東西並不是完全模擬,而是人手工設定權限, 比如對于學校這個類別或結點,賦予更高的權重,那麼則跟傾向使用共同的學校來 搜尋。 至于有什麼你好久不見沒聯系的熟人出現,那是你們之間有某種千絲萬縷的聯系, 可能通過你們之間共同的朋友,共同的朋友的朋友,共同的愛好,共同的遭遇等等, 加權算出。 還有就是人的心理,人總是強調正確的幾次,但是忽略了錯誤的很多次,這也是成因之一 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 222.70.145.19

09/22 21:55, , 1F
意思是類神經網路來模擬人際關係?這樣負荷會不會很高?
09/22 21:55, 1F

09/22 23:03, , 2F
先求懂,至於加速就是數學家拿手的了..;也或許這是這些服務
09/22 23:03, 2F

09/22 23:04, , 3F
晚推出的原因;其實講 google 就有權重的感覺了,台灣較熟知
09/22 23:04, 3F

09/22 23:51, , 4F
由于網絡活動是應答式,負荷主要取決于人的活躍程度
09/22 23:51, 4F

09/23 00:30, , 5F
還有 prefetch,預估使用者行為,所以不全是在應答時運算
09/23 00:30, 5F

09/23 00:32, , 6F
google 如果在我搜尋時才進行搜尋,那回應會很慢;如果先做
09/23 00:32, 6F

09/23 00:32, , 7F
快是快了,但資料量也不小;事實上 google server 是一堆貨
09/23 00:32, 7F

09/23 00:33, , 8F
櫃,的確並不小;再來就是網際共享去做,比如呼叫別人的 API
09/23 00:33, 8F

09/23 00:34, , 9F
比如若 facebook 呼叫了 google,那有很多東西就不用自己做
09/23 00:34, 9F

09/23 21:31, , 10F
我是覺得要將社群網站設計成這樣,花的成本遠高機率模型..
09/23 21:31, 10F

09/23 21:34, , 11F
搜索效能是一回事,神經網絡的訓練也要有一定的次數
09/23 21:34, 11F

09/23 21:35, , 12F
若是我到這網站,一開始因為訓練不足亂推薦我就閃了
09/23 21:35, 12F

09/23 21:35, , 13F
我覺得這還是不能解釋為什麼我某個朋友會被找到
09/23 21:35, 13F

09/23 21:35, , 14F
世界上人那麼多, 就算他找十個才對一個, 也很神了
09/23 21:35, 14F

09/23 21:37, , 15F
六度分隔理論: 平均只需六個人就可以聯繫任何兩個互不相
09/23 21:37, 15F

09/23 21:38, , 16F
識的人。
09/23 21:38, 16F

09/23 21:39, , 17F
應該就是fly大文章提到的 P(a)*P(b)...
09/23 21:39, 17F

09/23 21:51, , 18F
不過六度分隔也很'淡',比如我和歐巴馬,是不是算一度?
09/23 21:51, 18F

09/23 21:57, , 19F
詳細我不清楚,wiki倒是有一些實驗數據
09/23 21:57, 19F

09/23 21:57, , 20F

09/23 22:03, , 21F
是的,它裏面提到了'明星';我們都透過了共同的人來做這件事
09/23 22:03, 21F

09/23 22:06, , 22F
╮(╯ˇ╰)╭ 雖然感覺有點硬扯,不過可以解釋為什麼我
09/23 22:06, 22F

09/23 22:06, , 23F
的朋友認識你的朋友,好巧喔 !
09/23 22:06, 23F
文章代碼(AID): #1AkBr3MZ (ask-why)
文章代碼(AID): #1AkBr3MZ (ask-why)