每日經濟新聞 2025-01-27 15:30:22
1月27日11點左右,DeepSeek官網一度顯示“DeepSeek網頁/API不可用”,此前它已“崩”過兩次。每經記者聯系DeepSeek客服,對方未對服務器過載問題給予答復。同時,DeepSeek在海外掀起巨浪,超越ChatGPT登頂蘋果美區應用商店免費APP下載排行榜。然而,其背后團隊和領頭人非常低調且神秘。據了解,DeepSeek團隊規模不到140人,成員多來自清北等國內頂尖高校,以應屆生和在讀生為主。
每經記者 高涵 宋欣悅 每經編輯 蘭素英
巨量的關注再次“擠崩”DeepSeek。
1月27日11點左右,DeepSeek官網一度顯示“DeepSeek網頁/API不可用”,截至發稿,功能已恢復。而在昨日(26日),DeepSeek也“崩”了兩次。就此,《每日經濟新聞》記者聯系了DeepSeek客服??头藛T回答稱:“稍后再試。”當記者進一步追問是否由于服務器過載導致此次服務中斷時,客服人員未給予答復。
與此同時,DeepSeek在海外又一次掀起巨浪。1月27日早間,DeepSeek應用登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。
近期,包括紐約時報、經濟學人、華爾街日報等在內的多家英美主流媒體都報道了DeepSeek的研究進展,高度贊揚其模型的強大性能。
當地時間1月23日,一位德國頂尖的人工智能研發人員對《自然》評論說,比起OpenAI公司那些閉源的AI模型,DeepSeek的開源程度“相當優秀”?!都~約時報》引用一位在加拿大從事科技咨詢工作的人士的說法稱,DeepSee-R1才是他們符合他們需求的工具,因為性價比很高。
然而,DeepSeek背后的團隊和領頭人卻非常低調且神秘,公司創始人梁文鋒在網上的公開采訪只有寥寥幾篇。每經記者嘗試聯系到DeepSeek的一名員工,他表示,公司規定,不能夠對外接受采訪。
此外,每經記者加入了DeepSeek的官方交流群。該群的群公告寫道,“暫不對外進行項目合作,不提供私有化部署及相關支持服務;DeepSeek將集中研發精力奉上更強的模型,敬請期待!”
每經記者深入探究梁文鋒及其DeepSeek團隊的核心成員,揭開它如何從一個默默無聞的小公司,一步步崛起成為震動全球AI圈的“東方神秘力量”的背后故事。
創始人梁文鋒是浙江大學信息與通信工程專業的碩士,在他帶領下的DeepSeek對人才極其看重,不看經驗,只看能力。據多位與DeepSeek有過接觸的行業人士表述,DeepSeek的優勢之處就在于人才密度極高,且多來自于中國本土市場。DeepSeek團隊規模并不大,不到140人,工程師和研發人員幾乎都來自清北等國內頂尖高校,鮮有“海歸”,而且工作時間都不長,不少還是在讀博士。
在剛剛成立的一年多時間里,DeepSeek一直不聲不響,V2模型的發布成為其破圈的關鍵。2024年5月發布的DeepSeek V2提供了一種史無前例的性價比:推理成本被降到每百萬token僅1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,DeepSeek因此被業內戲稱為“AI屆拼多多”。此外,因為其低調的作風,DeepSeek又被稱“來自東方的神秘力量”。
這之后,DeepSeek也引發了硅谷的恐慌,OpenAI迎來一個最強勁的對手。實際上,DeepSeek背后并是不什么互聯網科技大廠,而是來自金融領域的頭部量化:幻方量化。
梁文鋒(右) 圖片來源:新聞截圖
2023年,全球AI熱潮爆發,梁文鋒也來到了他創業之路的第十個年頭。當年5月,38歲的梁文鋒宣布要做通用人工智能(AGI)。同年7月,杭州深度求索人工智能基礎技術研究有限公司(DeepSeek)成立,專注于AI大模型的研究與開發。梁文鋒也成為量化投資者投身AI創業的“第一人”。梁文鋒是幻方量化的實際控制人,天眼查信息顯示,他在DeepSeek最終受益的股份比例超80%。
圖片來源:天眼查
1985年,梁文鋒出生于廣東湛江的一個五線城市。其具體的童年成長軌跡已不可考,從公開信息唯一可知的是,梁文鋒有在采訪中提到過自己的父親是一名小學老師。
2002年,17歲的梁文鋒憑借優異成績考入浙江大學電子信息工程專業。2007年,22歲的梁文鋒又考上了浙江大學信息與通信工程專業碩士,師從項志宇,主要做機器視覺研究。
2008年,在浙大讀書期間,23歲的梁文鋒與同學一起組團隊開始積累市場行情數據、金融市場其他相關數據以及宏觀經濟等數據。
2010年6月,25歲的梁文鋒從浙江大學信息與通信工程專業碩士畢業,其畢業論文題目為《一種魯棒的PTZ攝像機目標跟蹤算法》。
畢業后,他沒有像周圍人一樣去大廠做個程序員,而是躲在成都的廉價出租屋里,不停接受進入諸多場景中嘗試的挫敗,最終切入了最復雜場景之一的金融,并成立了幻方量化。
他主導的幻方量化在2016年首次上線AI策略,并于2017年實現投資策略全面AI化,成為量化投資領域的創新先鋒。幻方量化成立僅6年,管理規模曾達到千億,被稱為“量化四大天王”之一。它也是國內唯一公開宣稱有擁有萬張英偉達A100顯卡的企業,其算力儲備量就算是在一眾互聯網公司科技公司里,也豪不遜色。
在此前接受媒體采訪時,梁文鋒表示,幻方量化進入AI領域并非偶然,而是源于對AI的深厚興趣與堅定信念。早在浙江大學攻讀AI時,梁文鋒就堅信“AI一定會改變世界”,盡管當時這一觀點并不被廣泛認同。
梁文鋒強調,幻方量化進入AI領域并非為了復刻ChatGPT,而是希望通過研究和探索,解開AGI的更多未知之謎。他們將從語言大模型入手,逐步拓展到視覺等領域,致力于打造真正人類級別的AI。
梁文鋒告訴媒體,“我們要做的是通用人工智能,也就是AGI。語言大模型可能是通往AGI的必經之路,并且初步具備了AGI的特征,所以我們會從這里開始,后邊也會有視覺等。”
時至今日,梁文鋒的日常依舊是看論文、寫代碼、參與小組討論,是少有的能堪比一線研究員能力的公司掌舵者。一位AI創業者在社交媒體上爆料稱,他去年問過DeepSeek團隊的一名成員:“為什么你們的AI表現這么好?”那位成員回答:“因為我們的CEO自己讀論文、寫代碼、招募人才。”
便宜!開源!好用!
憑借集齊這三大優勢的AI大模型,DeepSeek一飛沖天,成為了全球AI圈熱議的對象。
據多位與DeepSeek有過接觸的行業人士表述,DeepSeek的優勢之處就在于人才密度極高,且多來自于中國本土市場。另一位與DeepSeek有過接觸的行業人士稱,“DeepSeek給出的薪酬待遇非常具有競爭力,這讓其一直對人才有很強的吸引力”。
在接受媒體采訪時,梁文鋒認為,如果追求短期目標,找現成有經驗的人是對的。但如果看長遠,經驗就沒那么重要,基礎能力、創造性、熱愛等更重要。從這個角度看,國內合適的候選人就不少。“不一定是做過這件事的人才能做這件事。我們招人有條原則是,看能力,而不是看經驗。我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。”
這一原則貫穿到了DeepSeek的團隊組成中,最大的特點就是年輕。應屆生、在讀生,特別是來自清北的應屆生在其中非常活躍。
“只招1%的天才,去做99%中國公司做不到的事情。”面試過DeepSeek的應屆生這樣評價其招聘風格。這也使得DeepSeek全員上下,都保持著極致的創新動力。
DeepSeek團隊規模并不大,不到140人,工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,鮮有“海歸”,而且工作時間都不長,不少還是在讀博士。即便是團隊的管理者,也非常年輕。
梁文鋒曾說過,“V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。”
讓DeepSeek破圈的V2模型最重要的創新是提出了一種新型注意力,在Transformer架構的基礎上,用MLA(Multi-head Latent Attention)替代了傳統的多頭注意力,大幅減少了計算量和推理顯存。
在一眾貢獻者中,高華佐和曾旺丁為MLA架構做出了關鍵創新,兩人都剛從學校出來沒幾年。高華佐非常低調,目前只知道是北大物理系畢業;曾旺丁來自北京郵電大學,研究生導師是北京郵電大學人工智能與網絡搜索教研中心主任張洪剛。
DeepSeek大模型的另一大突破,是通過一種名為GRPO的算法,創新訓練方法,大大降低了成本。
核心成員之一邵智宏此前是清華大學交互式人工智能(CoAI)課題組博士生,主要研究自然語言處理、深度學習,對構建穩健且可擴展的AI系統有著獨特見解。他曾服務于微軟研究院,加入DeepSeek團隊之后,參與了多個重要項目的研發,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
朱琪豪 圖片來源:北京大學程序設計語言研究室網站截圖
GRPO算法創新的另一重要貢獻者是朱琪豪,是北京大學計算機學院2024屆的博士畢業生,專注于深度代碼學習研究。
他的同學代達勱則在更早的時候加入這個團隊,參與了DeepSeek大模型從V1到V3每一代的研發,已經是元老級研發人員,也在學生時代獲得多項論文獎。
負責DeepSeek大模型訓練及推理基礎架構的,是同樣剛畢業的工程師趙成鋼。加入DeepSeek之前,他曾在英偉達公司實習。
DeepSeek團隊中其他核心人員還包括:Peiyi Wang(北大博士生)、王炳宣(清華博士生)、吳作凡(中山大學博士生)、任之洲(中山大學博士生)、周雨楊(中山大學博士生)和羅翔煜(中山大學博士生)等。
這些一邊搞研發一邊寫論文的年輕人,也一次又一次帶給梁文鋒驚喜。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP