您的位置:首頁 > 資訊 >

Twitter 開源推薦算法被指省略重要細(xì)節(jié),比馬斯克承諾的差遠(yuǎn)了

4 月 7 日消息,上周推特兌現(xiàn)了埃隆?馬斯克 (Elon Musk) 長期以來的承諾,在 GitHub 上公布了部分推薦算法底層代碼。然而,研究人員表示,其中的內(nèi)容并不詳盡,推特省略了“算法到底是如何工作的”等重要細(xì)節(jié),使得我們想要弄清推特平臺內(nèi)部運作機制仍然很困難。

以下是翻譯內(nèi)容:


(相關(guān)資料圖)

當(dāng)馬斯克第一次提出要接管推特時,就宣稱他接手后的第一件事就是“開源”推特算法。上周,他終于履行了自己的承諾,推特在 GitHub 上發(fā)布了平臺上有關(guān)“為你推薦”功能的部分底層代碼。

人們很快開始對這些代碼進行深挖,沒過多久就發(fā)現(xiàn)馬斯克的推文有特殊類別標(biāo)記。推特工程師們急忙站出來解釋說,這是為了便于“跟蹤統(tǒng)計”,其他分析也證實了這一說法。盡管推特幾個小時后就從 GitHub 上刪除了這段代碼,但人們?nèi)匀徊聹y推特工程師們特別優(yōu)待馬斯克所發(fā)內(nèi)容,可能采取了人為措施來提升他的推文曝光量。

自此之后,推特沒有發(fā)布更多代碼,也沒有說明其平臺算法的內(nèi)部運作機制。那些希望通過推特公開代碼來探究平臺內(nèi)部運作機制的人可能會感到失望。研究過這些算法的工程師們表示,這是因為推特發(fā)布的代碼省略了“算法”到底是如何工作的等關(guān)鍵細(xì)節(jié)。

據(jù)紐約大學(xué)研究社交媒體的副教授、前推特員工索爾?梅辛(Sol Messing)稱,推特所公開的內(nèi)容對推特算法進行了“大量編輯”,其中首要問題就是沒有涵蓋在推特推薦功能中能發(fā)揮作用的所有系統(tǒng)。

推特表示,它沒有公開用于處理廣告的代碼、信任和安全系統(tǒng),以防止不良行為者利用這些代碼進行惡意操作。此外,推特還選擇不公布用于訓(xùn)練算法的底層模型,并在一篇博客文章中解釋稱,這是為了“確保用戶的安全和隱私得到保護”。梅辛認(rèn)為,這個決定甚至更為重要。“算法的最關(guān)鍵部分 —— 驅(qū)動模型仍沒有開源,”他說,“因此,算法最為核心的部分仍然讓人費解?!?/p>

馬斯克最初開源推特算法的動機似乎源于他對推特利用算法壓制言論自由的擔(dān)憂。他在去年四月份的 TED 演講中說:“我認(rèn)為推特應(yīng)該開源算法,公開對推文內(nèi)容的任何更改 —— 無論是推薦還是不推薦 —— 都應(yīng)該明明白白地呈現(xiàn)出來。這樣,任何人都可以看到推特采取了哪些措施,就不會有任何算法或人工的幕后操作?!边@一演講是馬斯克確認(rèn)收購?fù)铺睾蟛痪米龅摹?/p>

在推特發(fā)布的代碼中,沒有提供足夠的信息來告訴人們這個平臺是否存在潛在的偏見,也沒有提供內(nèi)容來說明是否存在馬斯克想要公開的那種“幕后操縱”手段。梅辛說:“這只是透明度的做法?!薄暗沁@些內(nèi)容并沒有真正幫助人們深入了解算法的運作,也沒有讓人真正深入了解為什么有些人的推文排名會下降,而其他人的排名會上升?!?/p>

此外,梅辛還指出,推特最近在調(diào)整其應(yīng)用程序編程接口(API)方面的政策,這基本上切斷了絕大多數(shù)研究人員訪問大量推特平臺數(shù)據(jù)的途徑。沒有合適的 API 訪問權(quán)限,研究人員根本無法自行研究推特算法的新細(xì)節(jié)。梅辛在自己的分析中寫道:“在推特公布這些代碼的同時,這種做法使得研究人員更難深入分析代碼內(nèi)容。”

去年,在馬斯克首次討論“開源”推特算法的計劃后不久,分布式人工智能研究所 (DAIR) 研究總監(jiān)亞歷克斯?漢納 (Alex Hanna) 也提到了研究人員審查代碼的重要性。和梅辛一樣,她也認(rèn)為僅在 GitHub 上發(fā)布代碼并不足以提高推特運作方式的透明度。

漢納說:“如果你真的對公眾監(jiān)督推特算法等事情感興趣,那就必須采取多種方法?!?/p>

不過,推特在 GitHub 上公開的部分代碼確實揭示了推特算法的一些內(nèi)容。梅辛透露,數(shù)據(jù)科學(xué)家杰夫?艾倫 (Jeff Allen) 從中挖掘出一份文件,其中的內(nèi)容揭示推特如何使用“公式”為不同類型的用戶參與賦予優(yōu)先級。梅辛寫道:“如果我們從字面上理解,就會發(fā)現(xiàn)推特上的 1 個贊相當(dāng)于半個推文轉(zhuǎn)發(fā)?!薄耙粭l回復(fù)相當(dāng)于 27 次轉(zhuǎn)發(fā),而 1 條回復(fù)再加上推文作者的回應(yīng)就相當(dāng)于 75 次轉(zhuǎn)發(fā)?!?/p>

雖然這在一定程度上揭示了一些信息,但有關(guān)推特平臺的運作方式的描述并不完整。梅辛說:“沒有實際數(shù)據(jù)的話,這種分析沒有多少意義?!薄叭缃耨R斯克讓學(xué)者獲取數(shù)據(jù)的成本高得離譜。如果他們現(xiàn)在真的想研究這個問題,基本上每年需要花費 50 萬美元(當(dāng)前約 344 萬元人民幣)的巨資才能獲得大量有意義的數(shù)據(jù)。”

標(biāo)簽:

相關(guān)閱讀