焦點消息!騰訊云正在自研全新高性能傳輸協(xié)議 HARP:支持 10000 + 節(jié)點大規(guī)模組網(wǎng)
IT之家 12 月 21 日消息,在常見的 TCP / IP 協(xié)議、RoCE 協(xié)議之外,騰訊云正在自研一套全新的高性能傳輸協(xié)議 HARP。借助這套協(xié)議,數(shù)據(jù)中心內(nèi)部可以輕松支持 10000 + 節(jié)點的大規(guī)模組網(wǎng),以及微秒級“復(fù)活”故障網(wǎng)絡(luò),實現(xiàn) 0 斷鏈。
HARP 是一個完全自研的數(shù)據(jù)中心高性能傳輸協(xié)議。在保證端到端數(shù)據(jù)報文可靠傳輸?shù)耐瑫r,HARP 可以為上層應(yīng)用提供高可用、高可擴(kuò)展、高性能的網(wǎng)絡(luò)傳輸服務(wù)。
市面上已經(jīng)有各種各樣的網(wǎng)絡(luò)傳輸協(xié)議,騰訊云為什么從 0 到 1 開始自研新的傳輸協(xié)議呢?主要原因是,隨著應(yīng)用規(guī)模和需求的不斷發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)的可靠性和性能面臨著巨大的挑戰(zhàn),之前的協(xié)議漸漸無法滿足現(xiàn)有業(yè)務(wù)的發(fā)展。
(相關(guān)資料圖)
首先,可靠性上,數(shù)據(jù)中心內(nèi)部的交換機(jī)不可避免地會出現(xiàn)亞健康狀況,這種狀況輕則使得業(yè)務(wù)的響應(yīng)延時增加,重則導(dǎo)致業(yè)務(wù)超時斷鏈。其次,性能上,帶寬敏感型應(yīng)用、時延敏感的應(yīng)用與日俱增,而且數(shù)據(jù)中心應(yīng)用的部署規(guī)模越來越大,集合通信場景下往往會產(chǎn)生大量的并發(fā)的數(shù)據(jù)傳輸,這對現(xiàn)有網(wǎng)絡(luò)傳輸協(xié)議的可擴(kuò)展性提出了更大的要求。
因此,騰訊需要重新設(shè)計一套新的傳輸協(xié)議,既能滿足上層應(yīng)用對于高可用網(wǎng)絡(luò)傳輸?shù)囊?,又能提供高帶寬、低時延的數(shù)據(jù)傳輸服務(wù),還能保持在大規(guī)模部署下的網(wǎng)絡(luò)性能。
HARP 主要有三高特性:
“高可用”:通過多路徑并行傳輸及實時的鏈路檢測,微秒級切換故障鏈路,使得網(wǎng)絡(luò)發(fā)生故障時上層業(yè)務(wù)完全無感知,沒有明顯的性能抖動。
“高可擴(kuò)展性”:通過共享連接的設(shè)計和協(xié)議本身的優(yōu)化,使得大規(guī)模組網(wǎng)狀況下依然維持著極低的硬件資源消耗,輕松支持 1w + 節(jié)點組網(wǎng)下節(jié)點間通信性能無明顯下跌,大大優(yōu)于傳統(tǒng) ROCE 網(wǎng)絡(luò)的組網(wǎng)能力。
“高性能”:自研擁塞控制算法,對網(wǎng)絡(luò)能力無明顯依賴的前提下,實現(xiàn)各種負(fù)載時都能獲得極高的傳輸帶寬和穩(wěn)定的時延(包括平均時延和長尾時延)。
技術(shù)上如何實現(xiàn)的
1、粒度可配置的共享連接,最大支持 10000 + 節(jié)點組網(wǎng)
為了滿足多種業(yè)務(wù)環(huán)境的使用需求(裸金屬,VM,CBS 等)和大規(guī)模組網(wǎng)要求,HARP 支持裸連接、VM 級共享、主機(jī)級共享等粒度的連接模式。通過共享連接,HARP 可以大幅減少連接數(shù)量,降低硬件實現(xiàn)的資源消耗,實現(xiàn)高度的可擴(kuò)展性,輕松支持 10000 + 級節(jié)點的大規(guī)模組網(wǎng)。
2、軟硬件事務(wù)分離,提供 200Gbps 最高性能輸出
HARP 采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計,分工明確:硬件負(fù)責(zé)需要高效和可靠傳輸?shù)膱笪募壥聞?wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用有限的硬件資源。
最終,HARP 可以支持在 10000 + 節(jié)點的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供 200Gbps 的最高性能輸出,對于 AI 訓(xùn)練、鍵值存儲、分布式大數(shù)據(jù)應(yīng)用等場景具有獨特價值。
3、自研擁塞控制算法,讓消息完成時間中位數(shù)降低 35%
HARP 采用自研的擁塞控制算法 PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時,保證網(wǎng)絡(luò)流的通暢。相較于 TCP,HARP 消息完成時間的中位數(shù)降低了 35%,同時保證 99% 數(shù)據(jù)包的網(wǎng)絡(luò)排隊時延降低 90%。
4、確定性多路徑傳輸、實現(xiàn)微秒級路徑切換
騰訊云 HARP 協(xié)議吸收包括 TCP 和 UDP 的優(yōu)勢,通過自研的報文編號方案追蹤每個報文的發(fā)送和接收狀態(tài),HARP 以極低開銷支持亂序接收和選擇性重傳,保證了報文的可靠傳輸。
同時,HARP 通過確定性多路徑傳輸和微秒級路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。
HARP 在每個連接內(nèi)采用多路徑傳輸,每條路徑有獨立的擁塞探測能力。基于自研擁塞控制算法優(yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP 的路徑管理模塊會根據(jù)路徑的擁塞情況進(jìn)行調(diào)度,快速可靠地檢測到路徑故障,并在 100 微秒時間內(nèi)重新探測一條新的可用路徑,保證在單個交換機(jī)故障時的斷鏈概率為 0。相比起 TCP 遭遇故障的典型重連恢復(fù)時間(約為 1s),HARP 減少了 99.9%。
IT之家了解到,HARP 最初是面向存儲與高性能計算的場景而設(shè)計,目前也已經(jīng)落地在騰訊的云硬盤(CBS)與彈性 RDMA(EFI)業(yè)務(wù)中。作為一個高性能的通信底座,HARP 可以被應(yīng)用于數(shù)據(jù)中心對網(wǎng)絡(luò)性能要求較高的業(yè)務(wù)中,比如 AI 訓(xùn)練、鍵值存儲、分布式大數(shù)據(jù)應(yīng)用等。
當(dāng)前騰訊云的工程師還正在不斷地完善其高性能通信庫,包括使用 Socket、IB Verbs、libfabric、UCX 等通信接口接入 HARP 傳輸協(xié)議,從而不斷擴(kuò)大 HARP 的生態(tài)。
標(biāo)簽: