每日經濟新聞 2025-03-24 15:05:12
近日,螞蟻集團Ling團隊發表技術成果論文,推出百靈輕量版與百靈增強版兩款MoE大語言模型。該團隊設定“不使用高級GPU”的目標,通過創新訓練策略,降低訓練成本,實現與頂尖模型相當的性能。如該技術成果得到驗證及推廣,將助力國產大模型降低對英偉達芯片的依賴。此外,螞蟻集團還在AI醫療產業布局,加碼具身智能人形機器人領域。
每經編輯 畢陸名
目前,螞蟻集團Ling團隊的技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》已發表在預印版Arxiv平臺上。
論文顯示,螞蟻集團推出了兩款不同規模的MoE大語言模型——百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),前者參數規模為168億(激活參數27.5億),Plus基座模型參數規模高達2900億(激活參數288億),兩者性能均達到行業領先水平。
據技術成果論文,雖然DeepSeek、阿里通義千問、MiniMax等系列的MoE大模型在特定任務中展現出卓越性能,但是MoE模型的訓練通常依賴高性能計算資源(如英偉達H100/H800等先進GPU),高昂成本制約了在資源受限環境中的普及應用。同時,近年來英偉達高性能芯片持續短缺,相比之下,低性能加速器供應更充足且單機成本更低。這種差異凸顯了構建跨異構計算單元與分布式集群無縫切換技術框架的必要性。
因此,Ling團隊設定的目標是“不使用高級GPU”來擴展模型,并通過提出創新性的訓練策略,旨在突破資源與預算限制實現高效大語言模型訓練,從而推動AI技術向普惠化方向發展。
據技術論文,Ling團隊在五種不同的硬件配置上對9萬億個token進行Ling-Plus的預訓練,其中使用高性能硬件配置訓練1萬億token的預訓練成本約為635萬元人民幣,但利用螞蟻的優化方法后,使用低規格硬件的訓練成本將降至508萬元左右,節省了近20%,最終實現與阿里通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當的性能。
此前,DeepSeek通過一系列算法創新及工程優化,使用性能較低的英偉達H800訓練出了性能與頂尖模型相當的V3與R1,為大模型的訓練開辟了新的道路,讓更多的企業和研究機構看到了降低成本、提高效率的可能性。如果螞蟻集團的技術成果得到驗證及推廣,意味著國產大模型能夠尋找成本更低、效率更高的國產芯片或其他替代方案,以進一步降低對英偉達芯片的依賴。
螞蟻集團正加碼AI醫療產業布局,3月21日,其對外公布了在醫療機構、醫生、用戶三端最新AI產品體系升級。其中,面向醫療機構,螞蟻聯合華為醫療衛生軍團、阿里云等推出“螞蟻醫療大模型一體機”全棧式解決方案;面向好大夫在線29萬注冊醫生,發布AI醫生助手系列工具;同時,服務用戶的健康應用“AI健康管家”也推出智能思考、健康自測等十余項新功能。
除了AI以外,螞蟻近期在人形機器人領域也動作頻頻。
今年2月,某招聘平臺信息顯示,螞蟻集團開放招聘具身智能人形機器人系統和應用等崗位,年薪高達百萬元。而早在去年12月,螞蟻集團就注冊成立了上海螞蟻靈波科技有限公司,聚焦具身智能技術和產品研發。
每日經濟新聞綜合公開信息
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。
封面圖片來源:每經記者 孔澤思 攝
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP