每日經濟新聞 2025-02-28 19:24:54
每經記者 岳楚鵬 每經編輯 程鵬 蘭素英
誰能想到DeepSeek為了搞大模型自己弄了套文件系統?
2月28日,DeepSeek開源周的最后一天,DeepSeek直接公開了V3和R1訓練推理過程中用到的Fire-Flyer文件系統(簡稱3FS,第三個F代表File)和基于3FS和DuckDB構建的輕量級數據處理框架Smallpond。
圖片來源:X
3FS是一個真正意義上面向現代SSD(固態硬盤)和RDMA(遠程直接訪問)網絡的文件系統,它可以把固態硬盤的帶寬性能利用到極致,并表現出了驚人的速度:180節點集群中的聚合讀取吞吐量為6.6TiB/s;25節點集群中GraySort基準測試的吞吐量為3.66TiB/分鐘;每個客戶端節點的KVCache查找峰值吞吐量超過40GiB/s。
KCORES聯合創始人karminski-牙醫評價道:“DeepSeek顛覆了存儲架構。”
圖片來源:X
根據DeepSeek團隊介紹,3FS就是為了AI訓練和推理工作負載的挑戰所開發的。它利用現代SSD和RDMA網絡來提供共享存儲層,從而簡化分布式應用程序的開發。
它可以在沒有雙方操作系統介入的情況下,將數據直接從一臺計算機的內存傳輸到另一臺計算機,也不需要中央處理器、CPU緩存或上下文交換參與。特點就是高通量、低延遲,尤其適合在大規模并行計算機集群中使用。
那這樣方便的系統,有什么作用呢?每經小編請DeepSeek大模型用白話來解答這一問題。
而在DeepSeek開源3FS文件系統前幾個小時,OpenAI推出了期待已久的GPT-4.5,之前這個模型的代號為“Orion”。OpenAI聲稱這是其迄今最大、知識最豐富的模型,現已向每月訂閱費用達200美元的ChatGPT Pro用戶開放。
OpenAI首席執行官阿爾特曼表示,新模型的運行成本太高了,下周OpenAI將增加數萬塊GPU,提供算力支撐。
在馬斯克旗下xAI的Grok 3發布時,大家都興奮地表示,Scaling Law(規模法則)還沒有撞墻。但GPT-4.5一出,外界發現,OpenAI“撞墻”了。
GPT-4.5的預訓練計算量是GPT-4的10倍,但是基準測試只比4o好5%。在AIME和GPQA等困難的學術基準測試中,GPT-4.5的表現也達不到o3-mini、DeepSeek-R1和Claude 3.7 Sonnet等領先AI推理模型的水平。
圖片來源:X
阿爾特曼都只能解釋道,雖然它又貴,又慢,又不夠好。但是它有人情味兒。
有博主測評后表示,GPT-4.5這情商高得直接把智商干沒了。
圖片來源:數字生命卡茲克
而GPT-4.5的價格也是高到離譜,每百萬Tokens輸出價格150美元(約合人民幣1093.5元),是其他模型的10~100倍,更別說和DeepSeek比了。
2月26日,DeepSeek宣布了錯峰價格制度,DeepSeek-R1在高峰期每百萬Tokens輸出價格為2.19美元(約合人民幣15.9元),低谷期的價格僅為0.55美元 (約合人民幣4元)。以低谷期的價格計算,GPT-4.5的價格是DeepSeek-R1的近270倍。
圖片來源:X
DeepSeek為何能做出成本高效的AI模型呢?從這周開源的五大項目就能看出來,DeepSeek主打的就是“榨干”硬件性能。
第一天:FlashMLA架構,直接“爆改”英偉達GPU,突破H800計算上限;
第二天:DeepEP,第一個用于MoE(混合專家)模型訓練和推理的開源EP(專家并行)通信庫,提供高吞吐量和低延遲的all-to-all GPU內核;
第三天:DeepGEMM,僅300行代碼的通用矩陣乘法庫;
第四天:連開三源,創新的雙向流水線并行算法DualPipe、用于MoE的負載均衡算法EPLB,以及訓練和推理框架的性能分析數據;
第五天:3FS和Smallpond,高效的分布式文件系統和以之為基礎的數據處理框架壓榨固態硬盤性能。
在DeepSeek的數彈連發后,有網友稱,DeepSeek成領頭羊了。
圖片來源:X
那讓我們來看看,DeepSeek是怎么評價GPT-4.5這一模型的吧。
所以說,與其用OpenAI的天價模型,真不如使用DeepSeek更高效的R1模型。但老是“服務器繁忙,請稍后再試”,怎么辦?
不用擔心,2月12日每日經濟新聞App和每經網全面接入DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問6款大模型。用戶通過每日經濟新聞App和每經網就能與大模型自由對話還能一鍵“問公司”“問投資”“問基金”。
不得不說,用起來真的很絲滑,目前使用量已經超15萬次了!?
咋用呢?超簡單!
先下載每日經濟新聞App
http://www.jxzk19.com/corp/2016app/index.html
再往下看
↓
一、 在每日經濟新聞App首頁,點擊“DeepSeek”圖標或首頁輪播圖“自由問+問公司問投資問基金免費使用DeepSeek、Kimi、豆包等六款大模型”。
二、 進入“每經大模型平臺”頁面,即可使用DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問6款大模型中任意一款。
最近,每經“136計劃”還增加了新功能:
大模型解讀投資熱榜。
只需點擊投資熱榜中的任意新聞。
立即就能得到大模型的全面分析。
還能一鍵生成圖片分享給朋友。
告別“服務器繁忙”
快用每日經濟新聞App吧!
(免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。)
記者|岳楚鵬
編輯|程鵬?蘭素英?杜波
校對|孫志成
|每日經濟新聞 ?nbdnews??原創文章|
未經許可禁止轉載、摘編、復制及鏡像等使用
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP