您的位置:首頁 > 動漫 >

醫(yī)聯(lián)MedGPT丨“診斷”直播測評!治療方案與真人醫(yī)生96%一致

據(jù)消息,醫(yī)聯(lián)研發(fā)的國內(nèi)首個醫(yī)療大模型:MedGPT,已經(jīng)在“接診”患者了。

不可否認的是,MedGPT還有些問題需要調(diào)整,幾位專家指出它會出現(xiàn)偶爾過度給出治療建議、重復推薦檢查項目、某些概念表述不準確,以及無法實現(xiàn)查體等局限——要想MedGPT更加可用,這些意見一定程度比正面評價還要重要。


【資料圖】

但總的來說,首個醫(yī)療大模型的公開首秀的結(jié)果還算不錯。

總結(jié)下來,首先是大模型的基本能力都有,語義理解、多輪對話、多模態(tài)識別等,還能像OpenAI那樣通過插件商店鏈接到各種行業(yè)應(yīng)用。

還有通用大模型被廣為詬病的對齊和準確性問題,MedGPT整個流程結(jié)果也不輸真人醫(yī)生。

再從行業(yè)維度來看,確實能真正從醫(yī)學角度為醫(yī)生提供有效幫助,提升患者疾病管理效率。

此次真實測試過程中可以看到,它能基于有效問診以及醫(yī)學檢查數(shù)據(jù),MedGPT得以進行準確的疾病診斷,并為患者設(shè)計疾病治療方案。

甚至在診后,MedGPT還會在患者收到藥品后進行用藥指導與管理、智能隨訪復診、康復指導等智能化疾病管理工作。

目前它基本覆蓋ICD10的60%疾病病種,這意味著常見病癥都能Hold住還能7*24小時不間斷干活,一旦規(guī)?;涞剌o助醫(yī)生診療,能大大提升醫(yī)療效率,對于分級診療,醫(yī)療資源普惠,都能夠發(fā)揮一定作用。

首個醫(yī)療大模型如何煉成?

醫(yī)療向來是AI落地中專業(yè)性最強、壁壘性最高,對安全要求最高的領(lǐng)域之一。

以往用戶們會習慣性使用信息搜索來幫助自己做一些初步的疾病判斷,但信息魚龍混雜,普通用戶缺乏專業(yè)知識無法進行有效篩選,最終導致往往會收效甚微。

但又因為這個領(lǐng)域牽涉到每個人的生命健康,市場需求和社會價值一直很大。

因此自ChatGPT誕生以來,關(guān)于何時能在醫(yī)療領(lǐng)域“上崗”發(fā)揮作用,就備受產(chǎn)學研各界專家的關(guān)注。

誠如“弱智吧”成為檢驗各個通用大模型能力的Benchmark一樣,各個大模型的醫(yī)療能力也在美國執(zhí)業(yè)醫(yī)師資格考試USMLE中摩拳擦掌。

早些時候,?哈佛大學教授曾親自下場測試ChatGPT輔助診斷的表現(xiàn)。

結(jié)果顯示,ChatGPT在45個案例中39個診斷正確,并為30個案例提供適當?shù)姆衷\建議。這樣的表現(xiàn)已經(jīng)超過現(xiàn)有機器診斷水平,接近醫(yī)生。

另一個代表,谷歌健康團隊打造的Med-PaLM 2,它能回答各種醫(yī)學問題,據(jù)稱是首個在美國醫(yī)療執(zhí)照考試中達到專家水平的大語言模型。

但能做題并不能意味著就能落地應(yīng)用。

以GPT-4為首的通用大模型,他們高度依賴文本統(tǒng)計概率生成答案。相信大家也能感知到它很擅長一本正經(jīng)地胡說八道,如果應(yīng)用在日常交流,倒也樂在其中。

但要是應(yīng)用到行業(yè)中去,往往非專業(yè)人士會難以察覺,這就會引發(fā)各種風險,尤其又像醫(yī)療這種民生行業(yè),對內(nèi)容生成的把控要求更高,容不得半點差池。

更不用說醫(yī)療本身覆蓋知識面廣而繁雜,而且從整個就醫(yī)流程來看,診前、診中、診后都涉及各種各樣長尾任務(wù),所需高質(zhì)量數(shù)據(jù)可能并不比通用模型小,且大部分數(shù)據(jù)不是靠網(wǎng)上摘取。

這對企業(yè)來說,不單只是算法、算力和數(shù)據(jù)的考驗,而是一整套系統(tǒng)工程性難題。

既然如此,作為國內(nèi)首個醫(yī)療大模型MedGPT,又是如何做到的呢?

簡單總結(jié):專業(yè)大模型,以及多種準確性機制保架護航。

首先,一上來就打造醫(yī)療大模型。

此前專業(yè)大模型的思路是,先打造一個大模型,再利用專業(yè)數(shù)據(jù)做監(jiān)督微調(diào)。但MedGPT直接是以醫(yī)療數(shù)據(jù)預訓練、微調(diào)以及超100名醫(yī)生參與RLHF機制。

標簽:

相關(guān)閱讀