環(huán)球訊息：為確保 Bard 能給出高質(zhì)量答案，谷歌員工對其進(jìn)行單條式的評估、修正訓(xùn)練

2023-02-25 10:28:42|

來源：網(wǎng)易科技作者：

2 月 25 日消息，不久前，谷歌在內(nèi)部發(fā)起了代號為“斗狗”的活動，要求公司所有員工每周用兩到四個(gè)小時(shí)幫助測試和改進(jìn)其新的人工智能搜索聊天機(jī)器人 Bard。

就在 Bard 發(fā)布前不久，微軟也剛剛發(fā)布了采用 ChatGPT 聊天機(jī)器人背后技術(shù)的新版必應(yīng)搜索引擎，它允許用戶就幾乎任何話題進(jìn)行多輪對話。然而，在 Bard 被發(fā)現(xiàn)提供了一個(gè)錯(cuò)誤的答案后，對于谷歌的質(zhì)疑也逐漸浮現(xiàn)。同樣，隨著越來越多的人測試了新必應(yīng)，他們的聊天機(jī)器人也遇到了問題，比如其傾向于好斗的行為。

像 Bard 和 ChatGPT 這樣的 AI 聊天機(jī)器人，可以通過接受人類編寫的文本訓(xùn)練來模仿人類對話，這就解釋了為什么必應(yīng)的回復(fù)有時(shí)候看起來有些情緒化和不可預(yù)測。畢竟，被訓(xùn)練得像人一樣的機(jī)器人也很容易犯下人類的錯(cuò)誤。

(相關(guān)資料圖)

這些聊天機(jī)器人最初通過攝取大量的訓(xùn)練數(shù)據(jù)來完成大部分學(xué)習(xí)。此外，Bard 項(xiàng)目的產(chǎn)品主管杰克?克勞奇克 (Jack Krawczyk) 在一份備忘錄中告訴員工，谷歌的研究發(fā)現(xiàn)，為用戶查詢添加高質(zhì)量的響應(yīng)“顯著”提高了其 AI 模型的質(zhì)量。

據(jù)多位 AI 專家透露，谷歌員工可能會為 Bard 編寫高質(zhì)量的答復(fù)以改進(jìn)其模型。這些專家已經(jīng)在 AI 和大型語言模型領(lǐng)域完成了廣泛的研究。

克勞奇克讓員工向 Bard 詢問他們擅長的領(lǐng)域，比如最喜歡的興趣愛好。然后，他們被要求評估 Bard 的答案，以確保這些答案符合人們的期望，長度和結(jié)構(gòu)也都要合理。如果某個(gè)答案過于人性化、存在事實(shí)錯(cuò)誤或者沒有任何意義，員工可以重寫答案并提交給 Bard 的模型訓(xùn)練。

英屬哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)助理教授韋德?施瓦茨 (ved Shwartz) 表示，要想持續(xù)改進(jìn) Bard，谷歌可以采取監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的方式。

其中，監(jiān)督式學(xué)習(xí)是第一步，研究人員可以向聊天機(jī)器人輸入人類編寫的查詢和答案，直到它學(xué)會如何像人類那樣回復(fù)。在此基礎(chǔ)上，谷歌可以構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)模型，用谷歌員工寫的答案來訓(xùn)練它，以幫助它理解該公司希望 Bard 的答案展現(xiàn)哪些價(jià)值觀，包括在結(jié)構(gòu)、語氣以及其他方面加以改進(jìn)。

這個(gè)強(qiáng)化學(xué)習(xí)模型會查看 Bard 給出的答案，剔除其中不合適的答案，并驗(yàn)證合格的答案，直到聊天機(jī)器人明白它應(yīng)該如何行事?；旧希瑏碜怨雀鑶T工的“正確”答案將幫助該模型改進(jìn)。

強(qiáng)化學(xué)習(xí)模型還可以教會 Bard 在不談?wù)撉楦谢蛞云渌绞郊傺b人類的情況下提供信息。第一種模型主要學(xué)習(xí)基本的寫作技巧，而第二種模型將引導(dǎo)機(jī)器按照預(yù)期的方向回答問題。

哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)教授周宇 (音譯) 說，有了足夠好的答案進(jìn)行分析，強(qiáng)化學(xué)習(xí)模型就能知道哪些是合適的答案，哪些是不合適的答案。

確保事實(shí)準(zhǔn)確性

谷歌始終對推出聊天機(jī)器人持謹(jǐn)慎態(tài)度，可能是因?yàn)槠淇赡軐λ阉鳂I(yè)務(wù)利潤產(chǎn)生短期影響，并擔(dān)心準(zhǔn)確性。谷歌要求員工拒絕回答 Bard 試圖就金融或健康等敏感話題向用戶提供建議的問題，因?yàn)榛卮疱e(cuò)誤的風(fēng)險(xiǎn)很高。

AI 領(lǐng)域始終在努力解決事實(shí)準(zhǔn)確性問題，OpenAI 在 1 月份發(fā)布了更新，以提高 ChatGPT 在各種話題上對話的準(zhǔn)確性。本月在舊金山舉行的一場關(guān)于聊天機(jī)器人和 AI 的會議上，Anthropic 首席執(zhí)行官達(dá)里奧?阿莫代 (Dario Amodei) 表示，他相信隨著模型的改進(jìn)，聊天機(jī)器人將不再編造事實(shí)。

雖然訓(xùn)練有助于提高聊天機(jī)器人所生成答案的質(zhì)量，但施瓦茨表示，她不認(rèn)為這能夠徹底解決事實(shí)準(zhǔn)確性的問題。Bard 和 ChatGPT 都有所謂的“幻覺”傾向，這是該行業(yè)用來形容聊天機(jī)器人編造事實(shí)的術(shù)語。它們會從網(wǎng)頁上提取內(nèi)容，有時(shí)不可避免地會錯(cuò)誤地總結(jié)這些內(nèi)容。

標(biāo)簽： ChatGPT Bard