每日經(jīng)濟(jì)新聞 2025-02-27 19:04:09
每經(jīng)記者 宋欣悅 每經(jīng)編輯 陳柯名 蘭素英
2月27日,DeepSeek一次性開(kāi)源了兩個(gè)工具和一個(gè)數(shù)據(jù)集,分別是DualPipe、EPLB(專家并行負(fù)載均衡器)以及訓(xùn)練和推理框架的性能分析數(shù)據(jù)。此外,DeepSeek還在Github上詳細(xì)講解了DeepSeek-V3和R1模型背后的并行計(jì)算優(yōu)化技術(shù)。
圖片來(lái)源:X
據(jù)介紹,DualPipe是一種用于V3和R1訓(xùn)練中計(jì)算與通信重疊的雙向流水線并行算法。DeepSeek-V3就首次使用了該方法。與傳統(tǒng)的1F1B(交替執(zhí)行前向和后向傳播)和ZB1P(零氣泡單向流水線)方法相比,DualPipe大幅減少了流水線氣泡,同時(shí)僅增加了1倍的激活內(nèi)存峰值。
圖片來(lái)源:Github
值得一提的是,在GitHub網(wǎng)站上的DualPipe項(xiàng)目介紹中,DeepSeek創(chuàng)始人梁文鋒在開(kāi)發(fā)者之列。
EPLB是為V3和R1打造的專家并行負(fù)載平衡器,針對(duì)混合專家(MoE)模型的分布式訓(xùn)練和推理設(shè)計(jì)。在傳統(tǒng)的MoE模型中,專家負(fù)載的不平衡會(huì)導(dǎo)致計(jì)算資源的浪費(fèi),尤其是在專家并行(EP)的場(chǎng)景下,這種不平衡會(huì)進(jìn)一步加劇通信開(kāi)銷。而EPLB通過(guò)動(dòng)態(tài)調(diào)整每個(gè)專家的負(fù)載,確保在訓(xùn)練過(guò)程中專家之間的負(fù)載保持平衡。
而公布訓(xùn)練和推理框架的分析數(shù)據(jù)是為了幫助社區(qū)更好地了解通信計(jì)算重疊策略和底層實(shí)現(xiàn)細(xì)節(jié)。
不過(guò),對(duì)于非專業(yè)人士,這些密密麻麻的專業(yè)術(shù)語(yǔ),著實(shí)讓人頭疼。每經(jīng)小編也忍不住想說(shuō),“聽(tīng)君一席話,如聽(tīng)一席話。”
還好我們有DeepSeek!
每經(jīng)小編現(xiàn)在就讓DeepSeek-R1模型用生活場(chǎng)景中的示例,把此次開(kāi)源的三個(gè)項(xiàng)目講得明明白白、清清楚楚、透透徹徹!
美東時(shí)間周三(北京時(shí)間2月27日凌晨)美股盤后,“宇宙最重要財(cái)報(bào)”來(lái)襲。這份財(cái)報(bào)也是今年1月末DeepSeek橫空出世后,英偉達(dá)公布的首份財(cái)報(bào)。
英偉達(dá)披露的最新財(cái)報(bào)顯示,2025財(cái)年第四財(cái)季實(shí)現(xiàn)營(yíng)收393.31億美元,同比大幅增長(zhǎng)78%,高于市場(chǎng)預(yù)期的380.5億美元。在業(yè)績(jī)指引方面,英偉達(dá)預(yù)期2026財(cái)年第一財(cái)季的營(yíng)收將達(dá)到430億美元,上下浮動(dòng)2%,高于市場(chǎng)預(yù)期的417.8億美元。
英偉達(dá)CEO黃仁勛在財(cái)報(bào)中表示,市場(chǎng)對(duì)Blackwell芯片的需求令人驚嘆,因?yàn)橥评鞟I增加了另一種擴(kuò)展法則——增加訓(xùn)練的計(jì)算能力使模型更智能,而長(zhǎng)時(shí)間思考的額外算力使答案更智能。
稍后,黃仁勛在分析師電話會(huì)議上表示,“像OpenAI的o3、DeepSeek-R1、Grok 3等模型正是采用了推理時(shí)擴(kuò)展方法的推理模型,其計(jì)算資源消耗是(普通模型的)百倍甚至更多。未來(lái),推理模型的計(jì)算需求將會(huì)更高。”
黃仁勛還不忘點(diǎn)贊DeepSeek,稱其是一項(xiàng)出色的創(chuàng)新,點(diǎn)燃了全球的熱情。更重要的是,DeepSeek開(kāi)源了世界級(jí)的AI推理模型。
有評(píng)論稱,盡管英偉達(dá)的這份財(cái)報(bào)在一定程度上緩解了市場(chǎng)擔(dān)憂情緒,但投資者還是覺(jué)得英偉達(dá)業(yè)績(jī)帶來(lái)的驚喜不夠大。
那么,我們要如何解讀英偉達(dá)的最新財(cái)報(bào)呢?英偉達(dá)的業(yè)績(jī)又面臨著哪些壓力?
針對(duì)上述問(wèn)題,我們讓一直努力“榨干”英偉達(dá)GPU的“源神”DeepSeek親自來(lái)回答一下。
不得不說(shuō)
DeepSeek解讀得相當(dāng)專業(yè)
要是再分析分析“黃仁勛皮衣銷量是否同步增長(zhǎng)”
那不妥妥“財(cái)報(bào)界單口相聲”!?
But!
“服務(wù)器繁忙,請(qǐng)稍后再試”
真的很讓人頭大!
還好每日經(jīng)濟(jì)新聞App火速前來(lái)“救場(chǎng)”?
最近,每經(jīng)App接入了DeepSeek
響應(yīng)速度快到飛起,使用起來(lái)非常絲滑!
不管是問(wèn)公司、問(wèn)投資、問(wèn)基金,還是自由對(duì)話,都輕松拿捏!
目前使用量已經(jīng)超15萬(wàn)次了!?
咋用呢?超簡(jiǎn)單!
先下載每日經(jīng)濟(jì)新聞App
http://www.jxzk19.com/corp/2016app/index.html
再往下看
↓
一、在每日經(jīng)濟(jì)新聞App首頁(yè),點(diǎn)擊“DeepSeek”圖標(biāo)或首頁(yè)輪播圖“自由問(wèn)+問(wèn)公司問(wèn)投資問(wèn)基金免費(fèi)使用DeepSeek、Kimi、豆包等六款大模型”。
二、進(jìn)入“每經(jīng)大模型平臺(tái)”頁(yè)面,即可使用DeepSeek、Kimi、豆包、智譜清言、文心一言和通義千問(wèn)6款大模型中任意一款。
最近,每經(jīng)“136計(jì)劃”還增加了新功能:
大模型解讀投資熱榜。
只需點(diǎn)擊投資熱榜中的任意新聞
立即就能得到大模型的全面分析
還能一鍵生成圖片分享給朋友。
告別“服務(wù)器繁忙”
快用每日經(jīng)濟(jì)新聞App吧!
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
記者|宋欣悅??
編輯|陳柯名?蘭素英?王嘉琦
校對(duì)|金冥羽
|每日經(jīng)濟(jì)新聞 ?nbdnews??原創(chuàng)文章|
未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP