AI 鈔能力：阿聯(lián)酋打造的 Falcon-40B 語言模型 OpenLLM 排名第一、持續(xù)霸榜

2023-06-13 10:47:27|

來源：IT之家作者：

(資料圖)

IT之家 6 月 13 日消息，眾所周知，阿聯(lián)酋在科技及教育產(chǎn)業(yè)方面投入的預(yù)算一直不菲，近日，阿聯(lián)酋科技創(chuàng)新研究所（TII）打造出了 400 億參數(shù)的語言模型 Falcon-40B，在 Hugging Face 的 OpenLLM 排行榜上排名第一，并持續(xù)霸榜，贏過此前 LLaMA、StableLM 和 RedPajama 等競爭者。

▲ 圖源阿聯(lián)酋科技創(chuàng)新研究所（TII）

據(jù)稱，F(xiàn)alcon-40B 使用了 384 顆 GPU 來進(jìn)行 2 個月的訓(xùn)練、利用將近 5 億個 Token 訓(xùn)練而成。為提高訓(xùn)練過程的質(zhì)量，團(tuán)隊還自己組建了一套工作流程來篩選出“最高質(zhì)量的的資料”供給 AI 模型訓(xùn)練。經(jīng)多個基準(zhǔn)測試，表現(xiàn)比 LLaMA、Vicuna 和 Alpaca 更加出色。

此外，團(tuán)隊還采用了“多重查詢注意力”（Multiqery attention）機(jī)制，來提高模型的效率。“多重查詢注意力”機(jī)制即模型可以對每個 Token 進(jìn)行多個查詢，來更好表示同一序列中，不同 token 之間的關(guān)系，以在加速模型運(yùn)算效率的同時，降低模型的復(fù)雜性，進(jìn)而提高模型整體的可維護(hù)性。

阿聯(lián)酋科技創(chuàng)新研究所首席執(zhí)行官 Ray O. Johnson 博士表示：“2023 年將是人工智能之年。Falcon 模型對我們來說具有里程碑意義，但這僅僅是個開始”。

IT之家注意到，F(xiàn)alcon 模型已經(jīng)在 huggingface 上開源，目前開源的版本有 Falcon-7B-Instruct 和 Falcon-40B-Instruct 等，IT之家的小伙伴們可以在這里訪問。

標(biāo)簽：