要聞

狂飆13天：開源DeepSeek如何撼動全球AI市場

每日經濟新聞 2025-02-01 14:59:03

從1月20日推理模型DeepSeek-R1開源至今13天來，DeepSeek引起全球的驚訝，英偉達市值一周蒸發5520億美元，硅谷巨頭的恐慌，華爾街的焦慮。

每經記者王嘉琦每經編輯蘭素英

圖片來源：視覺中國

2025年1月中旬，英偉達CEO黃仁勛的中國之行備受矚目。從北京到深圳，再到臺中和上海，這位AI時代的“賣鏟人”每到一處都掀起一陣熱潮。然而，就在距離英偉達上海辦公室僅200公里的杭州，一場足以撼動AI產業格局的風暴正在悄然醞釀。彼時，身家1200億美元的黃仁勛或許并未意識到，一家名為深度求索（DeepSeek）的低調中國公司，即將在7天后成為英偉達的“黑天鵝”。

從1月20日推理模型DeepSeek-R1開源至今13天來，DeepSeek引起全球的驚訝，英偉達市值一周蒸發5520億美元，硅谷巨頭的恐慌，華爾街的焦慮。

DeepSeek 的“閃電戰”：性能、價格與開源三重沖擊

1月21日，特朗普在白宮宣布啟動四年總投資5000億美元、名為“星際之門”（Stargate）的AI基礎設施計劃。

前一天（1月20日），DeepSeek悄然開源了推理模型DeepSeek-R1。

隨后，英偉達自己的科學家Jim Fan率先解讀出了它的顛覆性意義。他說：“我們生活在這樣一個時代：由非美國公司延續OpenAI最初的使命——做真正開放的前沿研究、為所有人賦能。”

然而，那一周全球的目光都聚焦在剛剛上任的特朗普身上。

但臨近周末，DeepSeek突然成為科技圈、投資圈和媒體圈討論的對象。摩根大通分析師Joshua Meyers說：“周五，我收到的問題95%都是圍繞Deepseek的。”

有市場評論員預言，DeepSeek是“美國股市最大的威脅”。

但為時已晚，英偉達的跌勢已經開始。1月24日（周五）英偉達股價跌去3.12%。1月27日（周一），英偉達遭遇17%的“歷史性”大跌，市值蒸發近6000億美元，黃仁勛的個人財富一夜之間縮水208億美元。本周，英偉達累跌15.8%，市值蒸發5520億美元。

DeepSeek-R1帶來的最直接沖擊來自三個方面：性能、價格和開源。

性能比肩 o1

1月24日（周五）發布的聊天機器人競技場（Chatbot Area）榜單上，DeepSeek-R1綜合排名第三，與OpenAI的ChatGPT o1并列。在高難度提示詞、代碼和數學等技術性極強的領域以及風格控制方面，DeepSeek-R1位列第一。

“白菜價”顛覆市場

DeepSeek-R1的價格低得驚人：API端口緩存命中1元/百萬Tokens，緩存未命中4元/百萬輸入 tokens，輸出16元/百萬Tokens。僅為o1的2%～3%。

DeepSeek移動應用和網頁端免費，而能力相當的 ChatGPT o1一個月200美元。

完全開源

DeepSeek-R1完全開源，任何人都可以自由地使用、修改、分發和商業化該模型，徹底打破了以往大型語言模型被少數公司壟斷的局面，將AI技術交到了廣大開發者和研究人員的手中。

1月24日，著名投資公司A16z的創始人馬克·安德森發文稱，Deepseek-R1是他見過的最令人驚嘆、最令人印象深刻的突破之一，而且還是開源的，它是給世界的一份禮物。

最具煽動性的評價來自Scale AI創始人亞歷山大·王（Alexandr Wang）。他說：過去十年來，美國可能一直在AI競賽中領先于中國，但DeepSeek的AI大模型發布可能會“改變一切”。

華爾街的焦慮：DeepSeek 動搖了英偉達的“算力信仰”嗎？

相比于技術，投資者更關心自己投資的公司將遭遇怎樣的挑戰。

他們開始思考，如果DeepSeek的低成本訓練有效，是否意味著巨頭們在算力上的投入不值得了。如果不需要瘋狂投入，市場對英偉達的業績預期還有支撐嗎？

正如投行Jeffreies股票分析師Edison Lee團隊1月27日在研報中所說，如今美國AI企業的管理層可能面臨更大的壓力。他們需要回答一個問題：進一步提高AI資本支出是否是合理的？

硅谷公司還面臨著投資者的拷問。1月27日上午，高盛分析師Keita Umetani和多名投資者進行了談話，不少投資者質疑：“如果沒有回報，還能證明資本支出的合理嗎？”

圖片來源：視覺中國

隨后，華爾街投行們紛紛發布報告安撫市場。

摩根大通分析師Joshua Meyers說，DeepSeek的（低成本）并不意味著擴張的終結，也不意味著不再需要更多的算力。

花旗分析師Atif Malik團隊稱，盡管DeepSeek的成就可能是開創性的，但如果沒有使用先進的GPU對其進行微調和/或通過蒸餾技術構建最終模型所基于的底層大模型，DeepSeek的成就就不可能實現。

DeepSeek-R1的訓練成本尚未公布。因此，一個月前（去年12月26日）發布的開源模型DeepSeek-V3成為主要分析對象。

DeepSeek-V3僅使用2048塊英偉達H800 GPU，在短短兩個月內訓練完成。H800是英偉達特供中國市場的AI芯片，在性能上不及先進的H200、H100等。

官方聲稱的558萬美元只是訓練開銷，真實總支出尚無定論。《DeepSeek-V3技術報告》中明確指出：請注意，上述成本僅包括 DeepSeek-V3的正式訓練，不包括與架構、算法或數據相關的先前的研究或精簡實驗的成本。

“當部門里一個高管的薪資就超過訓練整個DeepSeek-V3的成本，而且這樣的高管還有數十位，他們該如何向高層交代？”Meta員工如是說。

DeepSeek訓練成本低，一個重要原因是使用了數據蒸餾技術（Distillation）。數據蒸餾是將復雜模型的知識提煉到簡單模型。通過已有的高質量模型來合成少量高質量數據，并作為新模型的訓練數據。

根據技術報告，DeepSeek-V3利用DeepSeek-R1模型生成數據后，再使用專家模型來蒸餾生成最終的數據。

不過，數據蒸餾技術在行業內充滿爭議。南洋理工大學研究人員王漢卿向《每日經濟新聞》記者表示，蒸餾技術存在一個巨大缺陷，就是被訓練的模型（即“學生模型”）沒法真正超越“教師模型”。OpenAI也把DeepSeek的蒸餾當作靶子加以攻擊。

1月29日，OpenAI首席研究官Mark Chen發帖稱，“外界對（DeepSeek的）成本優勢的解讀有些過頭”。

不過，DeepSeek-V3的創新不僅于此。

資深業內人士向每經記者分析稱，DeepSeek-V3創新性地同時使用了FP8、MLA（多頭潛在注意力）和MoE（利用混合專家架構）三種技術。

相較于其他模型使用的MoE架構，DeepSeek-V3的更為精簡有效，每次只需要占用很小比例的子集專家參數就可以完成計算。這一架構的更新是2024年1月DeepSeek團隊提出的。

圖片來源：arXiv

MLA機制則是完全由DeepSeek團隊自主提出、并最早作為核心機制引入了DeepSeek-V2模型上，極大地降低了緩存使用。

技術路線之爭：DeepSeek 的“原創”與 OpenAI 的“大力出奇跡”

2024年12月，清華大學計算機系長聘副教授、博士生導師喻純在談及中國AI發展時向《每日經濟新聞》表示，中國在AI應用層有很大的優勢，擅長“從1到10”，但原始創新能力（從0到1）還有待提高。

現在，這一看法可能不再適用了。

DeepSeek帶來的最大“震撼”，是蹚出了一條與OpenAI截然不同的模型訓練路徑。

傳統上，監督微調（Supervised Fine-Tuning，簡稱 SFT）作為大模型訓練的核心環節，需要先通過人工標注數據進行監督訓練，再結合強化學習進行優化，這一范式曾被認為是 ChatGPT成功的關鍵技術路徑。

但是，DeepSeek-R1-Zero是首個完全摒棄了SFT環節、而完全依賴強化學習（Reinforcement Learning，簡稱 RL）訓練的大語言模型。DeepSeek-R1正是在R1-Zero的基礎上進行了改進。

英偉達高級研究科學家Jim Fan用大白話解釋說：

SFT是人類生成數據，機器學習；

RL是機器生成數據，機器學習。

這一突破為AI的自主學習范式提供了重要的實踐范例。

DeepSeek為何不走捷徑，而是尋求一條與OpenAI完全不同技術路線？背后的理由可以從創始人梁文鋒的理想中探尋。

《每日經濟新聞》記者了解到，DeepSeek規定員工不能對外接受采訪。即便是DeepSeek用戶群里的客服工作人員在解答群友疑問時也是小心翼翼，惜字如金。

尋找梁文鋒的人更是踏破鐵鞋。外界對他的了解大多來自于2023年5月和2024年7月《暗涌》對他的專訪。專訪文章將他稱為“一個更極致的中國技術理想主義者”。和OpenAI創始人山姆·阿爾特曼（Sam Altman）一樣，梁文鋒的“目的地”是通用人工智能（AGI）。然而，梁文鋒的理想不在于目的地，而是如何通往目的地。

DeepSeek選擇“不做垂類和應用，而是做研究，做探索”“做最難的事”“解決世界上最難的問題”。

梁文鋒口中的“難”，就是“原創”二字。

他說：“我們經常說中國AI和美國有一兩年差距，但真實的gap是原創和模仿之差。如果這個不改變，中國永遠只能是追隨者，所以有些探索也是逃不掉的。”

對于選擇和OpenAI不一樣的路，梁文鋒的口氣中充滿樂觀：ChatGPT誕生在OpenAI“也有歷史的偶然性”“OpenAI也不是神，不可能一直沖在前面”。

當地時間周一（1月27日）晚間，OpenAI首席執行官山姆·阿爾特曼終于對DeepSeek給出了他的評價。他在社交平臺X上連發三條值得玩味的帖子。

首先，他重申了自己的目標——AGI。甚至比梁文鋒更進一步，要“超越”AGI。

其次，他捍衛了自己的“路線”——算力不僅重要，而且前所未有地重要。

最后，他將DeepSeek-R1稱作“一位新對手”，并表示“我們當然會推出更好的模型”。

當地時間1月31日，在攜一眾高管在reddit上舉行AMA（問我任何問題）活動時，阿爾特曼正式承認DeepSeek是一個非常好的模型，OpenAI會制作出更好的模型，但領先優勢會比以前減弱。

這是否是山姆·阿爾特曼向DeepSeek下的“宣戰書”？他想較量的不僅關于誰是“更好的模型”，更是想用“大力出奇跡”的技術與“聰明”的技術進行一場比拼。

產業生態的博弈：微軟、英偉達、AWS紛紛接入DeepSeek-R1

一邊是硅谷、華爾街都在激辯DeepSeek的影響；另一邊，科技巨頭已經下場無縫連接DeepSeek-R1模型服務。

先是微軟，當地時間1月29日，將DeepSeek-R1模型添加到其Azure AI Foundry，開發者可以用新模型進行測試和構建基于云的應用程序和服務。

1月29日的第四季度業績電話會上，微軟首席CEO薩提亞·納德拉（Satya Nadella）再次肯定了DeepSeek“確實有一些真正的創新”，并且宣布DeepSeek-R1已可通過微軟的AI平臺Azure AI Foundry和GitHub獲取，并將很快在微軟AI電腦Copilot+ PC上運行。

雖然微軟是OpenAI的深度投資者且有很多合作，但在產品商業化上它依然選擇多樣性的模型。目前Azure的平臺上既有OpenAI的GPT系列、Meta的Llama系列、Mistral的模型，現在新增了DeepSeek。

緊接著，AWS（亞馬遜云科技）也宣布，用戶可以在Amazon Bedrock和Amazon SageMaker AI兩大AI服務平臺上部署DeepSeek-R1模型。

再然后是英偉達于當地時間1月31日官宣，DeepSeek-R1模型已作為NVIDIA NIM微服務預覽版，在英偉達面向開發者的網站上發布。

英偉達還在官網中表示，DeepSeek-R1是一個具有最先進推理能力的開放模型。DeepSeek-R1等推理模型不會提供直接響應，而是對查詢進行多次推理，采用思路鏈、共識和搜索方法來生成最佳答案。此前，1月28日，英偉達（中國）在對每經記者的回應中說到：“推理過程需要大量英偉達GPU和高性能網絡。”

想要在AI算力領域挑戰英偉達的AMD也毫不猶豫為DeepSeek“站臺”。1月25日，AMD宣布，DeepSeek-V3模型已集成至AMD InstinctGPU上，并借助SGLang進行了性能優化。此次集成將助力加速前沿AI應用與體驗的開發。

阿斯麥總裁兼CEO富凱1月29日表示：“任何降低成本的事情，對阿斯麥來說都是好消息”，因為更低的成本意味著更多的應用場景，更多應用意味著更多芯片。

DeepSeek沖擊波的深遠影響：AI的未來，何去何從？

2020年1月，OpenAI發表論文《神經語言模型的規模法則》(Scaling Laws for Neural Language Models)。規模法則表明，通過增加模型規模、數據量和計算資源，可以顯著提升模型性能。在AI領域，規模法則被俗稱為“大力出奇跡”，也是OpenAI的制勝法寶。

2024年底，AI界傳出大模型進化遭遇“數據墻”的消息。美國技術研究公司Epoch AI預測，互聯網上可用的高質量文本數據可能會在2028年耗盡。圖靈獎得主楊立昆（Yann LeCun）和OpenAI前首席科學家伊利亞•蘇茨克維（Ilya Sutskever）等人直言，規模法則（Scaling Law）已觸及天花板。

“大力出奇跡”的忠實擁躉——硅谷巨頭們開始將千億美元級的資本投入算力。這場“算力競賽”的瘋狂程度從下面這些數據中可見一斑。

圖片來源：每經制圖

但是，DeepLearning創始人吳恩達1月29日撰文提醒稱，擴大規模（Scaling up）并非是實現AI進步的唯一途徑。一直以來……人們過度關注擴大規模，而沒有以更細致入微的視角，充分重視實現進步的多種不同方式。但算法創新正使訓練成本大幅下降。

DeepSeek-R1開源至今已經過去13天，關于它的討論還在繼續。

DeepSeek的出現讓人們開始重新審視開源的價值和風險，以及AI產業的競爭格局。這場由DeepSeek引發的“沖擊波”，將對全球AI產業產生深遠的影響。

未來的AI世界，是“大力出奇跡”的繼續狂飆，還是“聰明”技術的異軍突起？是巨頭壟斷的固化，還是百花齊放的繁榮？

DeepSeek出現，讓AI界開始真正嚴肅地思考未來：是繼續燒錢豪賭，還是讓AI成果商業化、平民化和普惠化？

隨著訓練成本降低、技術成熟以及開源，大語言模型將愈發成為一種普通產品。

1月31日，Hugging Face聯合創始人兼CEO托馬斯?沃爾夫（Thomas Wolf）說：“我認為人們正在從對模型的狂熱中冷靜下來，因為他們明白，得益于開源……很多這類模型將會免費且可自由獲取。”

巧合地是，同日，OpenAI正式推出了全新推理模型o3-mini，并首次向免費用戶開放推理模型。這是OpenAI推理系列中最新、成本效益最高的模型，現在已經在ChatGPT和API中上線。在o3mini正式推出之時，Sam Altman攜一眾高管在reddit回答網友問題時，罕見承認OpenAI過去在開源方面一直站在“歷史錯誤的一邊”。Altman表示：“需要想出一個不同的開源策略”。

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請核實。據此操作，風險自擔。

封面圖片來源：視覺中國

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

DeepSeek Ai 狂飆

上一篇文章

熱搜！春運期間退票為啥這么貴？這些規則要注意

返回每經網首頁

下一篇文章

狂飆13天：開源DeepSeek如何撼動全球AI市場；美2月1日起對墨加商品征收25%關稅；美國20多年來“最嚴重空難”已打撈出41具遺體；2812美元！金價創10年來“最佳一月表現” | 一周國際財經