商湯“商量SenseChat 2.0”多個評測基準(zhǔn)綜合表現(xiàn)超GPT-3.5水平-世界看點

2023-06-22 13:27:57|

來源：上海證券報·中國證券網(wǎng) 作者：

(資料圖片僅供參考)

近日，商湯科技公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權(quán)威大語言模型評測基準(zhǔn)的成績。

根據(jù)評測結(jié)果，“商量SenseChat 2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT（即GPT-3.5），部分已十分接近GPT4的水平。實現(xiàn)了我國語言大模型研究的重要突破。

以MMLU為例，該測試是由美國加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語言理解的評測基準(zhǔn)，涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù)，人文、社會科學(xué)等領(lǐng)域的57個科目，難度從初級水平到高級專業(yè)水平，考驗世界知識和解決問題的能力。

在該評測中，“商量SenseChat 2.0”綜合得分為68.6，遠(yuǎn)超GLM-130B（45.7分）的得分，同時還超過了ChatGPT（67.3分）、LLaMA-65B（63.5分）僅落后GPT-4（86.4分），位居第二。在各主要子評測集中的表現(xiàn)如下：

今年4月，商湯正式發(fā)布“商湯日日新SenseNova”大模型體系以及自研中文語言大模型“商量SenseChat”。截至6月，全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款，其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。

截至目前，已有近千家企業(yè)客戶通過申請，應(yīng)用和體驗“商量SenseChat 2.0”超強的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力，并且“商量SenseChat 2.0”還在服務(wù)客戶過程中，持續(xù)實現(xiàn)著快速迭代和提升，以及知識的實時更新。

（文章來源：上海證券報·中國證券網(wǎng)）

標(biāo)簽：