您的位置:首頁 > 資訊 >

環(huán)球訊息:為確保 Bard 能給出高質(zhì)量答案,谷歌員工對其進(jìn)行單條式的評估、修正訓(xùn)練

2 月 25 日消息,不久前,谷歌在內(nèi)部發(fā)起了代號為“斗狗”的活動(dòng),要求公司所有員工每周用兩到四個(gè)小時(shí)幫助測試和改進(jìn)其新的人工智能搜索聊天機(jī)器人 Bard。

就在 Bard 發(fā)布前不久,微軟也剛剛發(fā)布了采用 ChatGPT 聊天機(jī)器人背后技術(shù)的新版必應(yīng)搜索引擎,它允許用戶就幾乎任何話題進(jìn)行多輪對話。然而,在 Bard 被發(fā)現(xiàn)提供了一個(gè)錯(cuò)誤的答案后,對于谷歌的質(zhì)疑也逐漸浮現(xiàn)。同樣,隨著越來越多的人測試了新必應(yīng),他們的聊天機(jī)器人也遇到了問題,比如其傾向于好斗的行為。

像 Bard 和 ChatGPT 這樣的 AI 聊天機(jī)器人,可以通過接受人類編寫的文本訓(xùn)練來模仿人類對話,這就解釋了為什么必應(yīng)的回復(fù)有時(shí)候看起來有些情緒化和不可預(yù)測。畢竟,被訓(xùn)練得像人一樣的機(jī)器人也很容易犯下人類的錯(cuò)誤。


(相關(guān)資料圖)

這些聊天機(jī)器人最初通過攝取大量的訓(xùn)練數(shù)據(jù)來完成大部分學(xué)習(xí)。此外,Bard 項(xiàng)目的產(chǎn)品主管杰克?克勞奇克 (Jack Krawczyk) 在一份備忘錄中告訴員工,谷歌的研究發(fā)現(xiàn),為用戶查詢添加高質(zhì)量的響應(yīng)“顯著”提高了其 AI 模型的質(zhì)量。

據(jù)多位 AI 專家透露,谷歌員工可能會(huì)為 Bard 編寫高質(zhì)量的答復(fù)以改進(jìn)其模型。這些專家已經(jīng)在 AI 和大型語言模型領(lǐng)域完成了廣泛的研究。

克勞奇克讓員工向 Bard 詢問他們擅長的領(lǐng)域,比如最喜歡的興趣愛好。然后,他們被要求評估 Bard 的答案,以確保這些答案符合人們的期望,長度和結(jié)構(gòu)也都要合理。如果某個(gè)答案過于人性化、存在事實(shí)錯(cuò)誤或者沒有任何意義,員工可以重寫答案并提交給 Bard 的模型訓(xùn)練。

英屬哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)助理教授韋德?施瓦茨 (ved Shwartz) 表示,要想持續(xù)改進(jìn) Bard,谷歌可以采取監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的方式。

其中,監(jiān)督式學(xué)習(xí)是第一步,研究人員可以向聊天機(jī)器人輸入人類編寫的查詢和答案,直到它學(xué)會(huì)如何像人類那樣回復(fù)。在此基礎(chǔ)上,谷歌可以構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)模型,用谷歌員工寫的答案來訓(xùn)練它,以幫助它理解該公司希望 Bard 的答案展現(xiàn)哪些價(jià)值觀,包括在結(jié)構(gòu)、語氣以及其他方面加以改進(jìn)。

這個(gè)強(qiáng)化學(xué)習(xí)模型會(huì)查看 Bard 給出的答案,剔除其中不合適的答案,并驗(yàn)證合格的答案,直到聊天機(jī)器人明白它應(yīng)該如何行事?;旧希瑏碜怨雀鑶T工的“正確”答案將幫助該模型改進(jìn)。

強(qiáng)化學(xué)習(xí)模型還可以教會(huì) Bard 在不談?wù)撉楦谢蛞云渌绞郊傺b人類的情況下提供信息。第一種模型主要學(xué)習(xí)基本的寫作技巧,而第二種模型將引導(dǎo)機(jī)器按照預(yù)期的方向回答問題。

哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)教授周宇 (音譯) 說,有了足夠好的答案進(jìn)行分析,強(qiáng)化學(xué)習(xí)模型就能知道哪些是合適的答案,哪些是不合適的答案。

確保事實(shí)準(zhǔn)確性

谷歌始終對推出聊天機(jī)器人持謹(jǐn)慎態(tài)度,可能是因?yàn)槠淇赡軐λ阉鳂I(yè)務(wù)利潤產(chǎn)生短期影響,并擔(dān)心準(zhǔn)確性。谷歌要求員工拒絕回答 Bard 試圖就金融或健康等敏感話題向用戶提供建議的問題,因?yàn)榛卮疱e(cuò)誤的風(fēng)險(xiǎn)很高。

AI 領(lǐng)域始終在努力解決事實(shí)準(zhǔn)確性問題,OpenAI 在 1 月份發(fā)布了更新,以提高 ChatGPT 在各種話題上對話的準(zhǔn)確性。本月在舊金山舉行的一場關(guān)于聊天機(jī)器人和 AI 的會(huì)議上,Anthropic 首席執(zhí)行官達(dá)里奧?阿莫代 (Dario Amodei) 表示,他相信隨著模型的改進(jìn),聊天機(jī)器人將不再編造事實(shí)。

雖然訓(xùn)練有助于提高聊天機(jī)器人所生成答案的質(zhì)量,但施瓦茨表示,她不認(rèn)為這能夠徹底解決事實(shí)準(zhǔn)確性的問題。Bard 和 ChatGPT 都有所謂的“幻覺”傾向,這是該行業(yè)用來形容聊天機(jī)器人編造事實(shí)的術(shù)語。它們會(huì)從網(wǎng)頁上提取內(nèi)容,有時(shí)不可避免地會(huì)錯(cuò)誤地總結(jié)這些內(nèi)容。

標(biāo)簽: ChatGPT Bard

相關(guān)閱讀