您的位置:首頁 > 財經 >

商湯“商量SenseChat 2.0”多個評測基準綜合表現超GPT-3.5水平-世界看點


(資料圖片僅供參考)


近日,商湯科技公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權威大語言模型評測基準的成績。

根據評測結果,“商量SenseChat 2.0”在三個測試集中表現均領先ChatGPT(即GPT-3.5),部分已十分接近GPT4的水平。實現了我國語言大模型研究的重要突破。

以MMLU為例,該測試是由美國加州大學伯克利分校、哥倫比亞大學、芝加哥大學及伊利諾伊大學厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務語言理解的評測基準,涵蓋了科學、技術、工程、數據,人文、社會科學等領域的57個科目,難度從初級水平到高級專業(yè)水平,考驗世界知識和解決問題的能力。

在該評測中,“商量SenseChat 2.0”綜合得分為68.6,遠超GLM-130B(45.7分)的得分,同時還超過了ChatGPT(67.3分)、LLaMA-65B(63.5分)僅落后GPT-4(86.4分),位居第二。在各主要子評測集中的表現如下:

今年4月,商湯正式發(fā)布“商湯日日新SenseNova”大模型體系以及自研中文語言大模型“商量SenseChat”。截至6月,全球范圍內正式發(fā)布的大語言模型已超過40款,其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。

截至目前,已有近千家企業(yè)客戶通過申請,應用和體驗“商量SenseChat 2.0”超強的長文本理解、邏輯推理、多輪對話、情感分析、內容創(chuàng)作、代碼生成等綜合能力,并且“商量SenseChat 2.0”還在服務客戶過程中,持續(xù)實現著快速迭代和提升,以及知識的實時更新。

(文章來源:上海證券報·中國證券網)

標簽:

相關閱讀