頭條

效率躍升1.71倍，字節再降MoE訓練成本，為何AI玩家接連開源最新技術？

每日經濟新聞 2025-03-11 23:59:08

3月10日，字節跳動豆包大模型團隊發布針對MoE架構的通信優化系統COMET，旨在通過細粒度計算-通信重疊技術優化大模型訓練。COMET已應用于萬卡級生產集群，累計節省數百萬GPU小時資源。隨著DeepSeek等公司開源熱潮興起，更多大模型玩家也紛紛跟進，以擴大市場份額、構建生態系統并提升品牌形象。

每經記者楊昕怡每經實習編輯余婷婷

訓練大模型的成本之高一直是行業痛點，各路玩家都在思考如何用技術創新把成本“打”下來。

3月10日，字節跳動豆包大模型團隊發布了針對MoE（混合專家模型）架構的通信優化系統COMET，該方案通過細粒度計算-通信重疊技術，助力大模型訓練優化。據豆包大模型團隊介紹，COMET已實際應用于萬卡級生產集群，累計節省了數百萬GPU（圖形處理器）小時資源。此外，COMET還可與豆包大模型團隊此前發布的新一代稀疏模型架構UltraMem結合，實現協同優化。

“在萬卡集群上做測試的這個經驗，國內很少能有。”一位頭部大模型算法工程師在接受《每日經濟新聞》記者采訪時表示，“目前很可能只有字節有這一經驗，而且還分享出來了。雖然現在國內大部分公司都沒有萬卡，但隨著行業往后發展，這一技術和先行經驗是很重要的。”

可以看到的是，自DeepSeek的開源模型R1在全球范圍內“爆紅”以來，國內更多大模型玩家以更高的頻率進行著技術開源。對此，北京市社會科學院副研究員王鵬向《每日經濟新聞》記者表示，大模型公司選擇優秀技術開源，對于擴大市場份額、吸引合作伙伴構建生態、提升公司的品牌形象和知名度等方面均有幫助。

MoE訓練效率提升1.71倍，字節開源COMET技術

3月1日，DeepSeek在知乎發布了“開源周”后的“彩蛋”，首次公布了模型降本增效的技術細節以及理論上高達545%的利潤率。

DeepSeek通過MoE架構的創新讓激活參數比大幅下降，使得同等效果的大模型所需的算力明顯下降。“671B的模型，在處理每個問題時，被調用激活的專家模型參數僅約37B，算力需求起碼降低到原來的約二十分之一。”阿里云無影事業部總裁張獻濤曾在接受《每日經濟新聞》記者采訪時表示。

而豆包團隊注意到，MoE架構的稀疏特性導致計算和通信間的依賴動態且復雜，其分布式訓練仍面臨著跨設備通信開銷巨大的成本挑戰。

3月10日，豆包大模型團隊發布了針對MoE模型的通信優化系統COMET。據介紹，COMET具體通過共享張量依賴解析機制，將共享張量沿Token維度或隱層維度切割，使通信與計算的最小單元對齊；同時通過動態負載分配算法，根據輸入規模和硬件環境實時調整線程塊分配，消除跨設備通信帶來的等待延遲。

一位豆包大模型的技術人員告訴《每日經濟新聞》記者，COMET和DeepSeek的DualPipe（雙向并行流水線技術）都用于降低MoE的通信開銷，但方法不同。記者了解到，DualPipe通過創新的雙向流水線并行技術，大幅提高模型的訓練效率。

豆包大模型團隊稱，COMET這一創新在大規模MoE模型上可達到單層1.96倍加速，端到端平均1.71倍效率提升。目前，COMET已實際應用于萬卡級生產集群，助力MoE模型高效訓練，并已累計節省了數百萬GPU小時資源。

“用100張卡測試的波動可能很少，因為（顯卡）出問題的概率較小，但1萬張卡的波動就會大很多。”一位頭部大模型算法工程師向《每日經濟新聞》記者表示，此次字節將這一成果開源，為整個行業提供了不可多得的萬卡集群實驗經驗，“國內有1萬張卡的企業也就幾家。”此外，豆包大模型還表示，COMET還可與豆包大模型團隊此前發布的新一代稀疏模型架構UltraMem結合，實現協同優化。

《每日經濟新聞》記者2月11日從豆包大模型團隊了解到，團隊已經提出了全新的稀疏模型架構UltraMem，該架構有效解決了MoE推理時高額的訪存問題，推理速度較MoE架構提升2-6倍，推理成本最高可降低83%。

圖片來源：視覺中國 VCG211550173673

爭奪“源神”，為何AI玩家接二連三開源最新技術？

從在全球范圍內引起熱議的DeepSeek-R1到開源周的“大放送”，DeepSeek因持續開源核心技術被業內稱為“源神”。基于DeepSeek的動作，國內大模型廠商紛紛跟進并加速了開源行動。

2月18日，階躍星辰首次開源其Step系列基座模型。該模型分別是目前全球范圍內參數量最大的開源視頻生成模型階躍Step-Video-T2V，以及行業內首款產品級開源語音交互大模型階躍Step-Audio。MiniMax也在1月15日發布并開源新一代01系列模型，包含基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。

除了頭部的AI初創公司外，重投大模型的多家互聯網巨頭也在緊跟開源這股熱潮，其中阿里一直是堅定的“開源派”。3月3日，開源社區Hugging Face最新榜單顯示，開源僅6天的阿里萬相大模型已反超DeepSeek-R1，登頂模型熱榜、空間榜兩大榜單，成為近期全球開源社區最受歡迎的大模型。3月6日凌晨，阿里再度拋出新的開源成果。阿里云通義千問官微宣布發布并開源最新的推理模型QwQ-32B。據介紹，這是一款擁有320億參數的模型，其性能可與具備6710億參數（其中370億被激活）的DeepSeek-R1媲美。

“開源優秀技術可以獲得更多聲量，也可以吸引更多企業、開發者進行二次開發，有助于生態構建。”一位豆包大模型的技術人員向《每日經濟新聞》記者表示。

同樣，王鵬也認為，開源模式能促進技術發展、創新，既可幫助大模型公司擴大其在全球AI市場的影響力和份額，也可以吸引到更多參與者加入到生態系統的共建中，從而降低自身研發成本。

不過，也有不同的聲音，大模型公司選擇開源模式究竟是為了名還是利？“如果開源的技術比閉源的更好用，免費的技術比收費的更好用，那么誰還用閉源和收費的？”工信部信息通信經濟專家委員會委員盤和林在接受《每日經濟新聞》記者采訪時表示，“實際上是以DeepSeek為代表的開源應用，在性能上追平了競爭對手。這導致很多大模型選擇了開源的路徑來應對。開源對于企業來說，并不能創造利潤，但能帶來用戶，互聯網流量為王，利潤次之。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

模型開源 Ai 字節

上一篇文章

注意！匯綠生態將于3月27日召開股東大會

返回每經網首頁

下一篇文章

注意！百花醫藥將于4月2日召開股東大會