2023-09-08 14:19:20
大模型推動AI進入新紀元,對計算、存儲、網絡、數據檢索及調度容錯等方面提出了更高要求。在9月7日舉行的2023騰訊全球數字生態大會“AI超級底座專場”上,騰訊云介紹異構計算全新產品矩陣“AI超級底座”及其新能力。
騰訊云副總裁王亞晨在開場致辭中表示,AI大模型就像是一場F1比賽,騰訊云專門設計了星脈高性能算力網絡“賽道”,并自研了TiTa和TCCL網絡協議作為“車載導航和道路控制系統”,共同讓“HCC GPU服務器”這臺馬力強大的F1賽車發揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領先。
隨著AI應用走向全領域,模型參數發展到千億、萬億級規模,對云計算的基礎設施提出了全新的挑戰。騰訊云異構計算產品總監宋丹丹表示,AI超級底座可以從底層算力基礎設施到上層應用對接提供整套完整服務,方便模型生產廠商和AI開發者快速開發、驗證。
騰訊云AI超級底座具有海量算力、極致性能、靈活取用等優勢,結合了騰訊云的海量多元算力、高性能網絡和存儲集群,并以云原生產品作為入口供開發者靈活調用。在軟硬結合層,騰訊云還可以通過GPU虛擬化、容器等,以及高性能應用服務HAI給開發者提供簡易的開發體驗,并讓底層的高性能算力無損直達開發者,真正實現“高性能易上手”。
作為AIGC時代的重要核心,大模型需要龐大的算力來支撐。騰訊云高性能計算集群產品HCC采用騰訊云星星海自研服務器,提供高性能、高帶寬和低延遲的集群算力。目前,HCC已全面升級至2.0,性能、效率和穩定性實現全面提升,相比上代訓練效率提升幅度達到3倍,將幾十天的訓練周期縮短至一周內。
此外,騰訊云還推出了性價比更高的冷存儲產品、COS加速器,以及數據湖多級加速體系,可面向AIGC等多種業務場景提供多級緩存加速方案,進一步提升訓練效率并降低資源成本。騰訊云存儲產品總監崔劍指出,騰訊云通過提供近存儲側的一站式數據處理智能平臺,為以AIGC為代表的業務提供內容處理、內容審核等服務,幫助用戶挖掘數據價值,從而實現了“取之AI,助力AI”。
騰訊云公網產品負責人俞圓圓指出,對于參數達到千億、萬億級別的AI大模型來說,大帶寬、低延時、廣覆蓋、少抖動的網絡是實現高效訓練的關鍵因素之一。騰訊云星脈高性能計算網絡具備業界最高的3.2T通信帶寬,可為AI大模型的訓練提供高速公路級別的網絡通道。
底層基礎設施以外,AI大模型的落地也需要上層軟件的支持。騰訊云異構計算AI研發專家工程師葉帆表示,隨著集群規模的增加,無論訓練還是推理對硬件性能的利用均呈現指數難度上升,需要精細的軟硬件協同來提升性能。騰訊云的Taco-LLM開箱即用性能方案基于Continuous Batching、預測解碼、模型量化等技術,提高吞吐的同時,也降低了客戶端延遲,并全面兼容hugging face主流大語言模型,可保障復雜多變的公有云應用場景。
針對GPU算力資源浪費的問題,騰訊云TencentOS高級產品架構師杜震表示,qGPU容器產品可以支持多個容器共享GPU卡,具備了各容器間算力、顯存的精細隔離和靈活配置,將GPU的利用率提升至極致,最終幫助客戶大幅節約GPU資源成本。同時,騰訊云還基于RUE內核全場景混部,統一調度分配CPU、IO、網絡、內存等資源,提升資源利用率,進一步降低運營成本。
在大模型時代,通過向量數據庫將數據高效接入AI大模型,并深度挖掘數據價值,成為最重要的事。
騰訊云數據庫產品副總經理羅云指出,騰訊云向量數據庫同時具備的性能和規模優勢,支持高達10億級的向量檢索規模,延遲則控制在毫秒級,比傳統單機插件式數據庫檢索規模提升了10倍。同時,騰訊云向量數據庫還具備百萬級每秒查詢(QPS)的峰值能力,經騰訊內部海量場景實踐,數據接入AI的效率比傳統方案提升10倍,運行穩定性高達99.99%。
從底層到上層,騰訊云AI超級底座通過大模型高性能計算集群、計算網絡以及向量數據庫等大模型生態工具,助力AI大模型應用落地。
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP