每日經濟新聞大模型評測報告（第2期）：國產“黑馬”逆襲，計算能力差成通病

每日經濟新聞 2024-09-06 15:27:10

每經記者王嘉琦每經實習編輯宋欣悅

在每日經濟新聞于6月25日發布的《每日經濟新聞大模型評測報告》第1期中，15款國內外主流大模型在“財經新聞標題創作”“微博新聞寫作”“文章差錯校對”“財務數據計算與分析”四大實戰場景進行了比拼。

隨著大模型的迭代更新和大模型新秀的涌現，《每日經濟新聞大模型評測報告》第2期如期而至。

第2期評測延續首期評測的宗旨，立足實戰，力求為用戶展現大模型在具體工作場景中的真實表現，為用戶在工作、學習和生活中選擇最佳大模型助手提供可靠參考。

本期評測設置了三個應用場景：（1）金融數學計算；（2）商務文本翻譯；（3）財經新聞閱讀。

每經大模型評測小組為每個場景制定了相應的評價維度和評分指標。每日經濟新聞10名資深記者、編輯根據評價維度和評分指標，對各款大模型在三大場景中的表現進行評分，匯總各場景得分，最終得到參評大模型總分。

不同于首期，第2期評測中的任務以客觀題為主，絕大多數題目都有標準答案。同時，評價維度和評分標準也更加突出客觀性，盡量避免主觀性評價。

需要特別指出的是，本期評測是通過各款大模型的API端口，并在默認溫度下完成。與公眾用戶使用的大模型C端對話工具存在差異。但評測結果對用戶在具體場景中選擇合適的大模型工具，依然具有重大參考價值。

本期評測在“雨燕智宣AI創作+”測試臺上進行，參評模型包括GPT-4o、智譜GLM-4、百度文心ERNIE-4.0-Turbo等15款國內外明星大模型。

本期評測時間為2024年8月12日，因此上述參評大模型中的所有國內大模型均為截至8月12日的最新版本。

誰能在三大評測場景中脫穎而出？

經過激烈角逐，評測結果新鮮出爐！

報告完整版以及測評題目，評分指標細則及部分案例，可訪問：每日經濟新聞大模型評測報告（第2期）。

評測結果顯示，“黑馬”幻方求索DeepSeek-V2以237.75的總分位居榜首，緊隨其后的是騰訊混元hunyuan-pro（237.08分）和Anthropic Claude 3.5 Sonnet（234.42分）。

在專項能力方面，各模型展現出了不同的優勢。

金融數學計算方面，騰訊混元hunyuan-pro以78分的成績領先其他模型，排名第一，幻方求索DeepSeek-V2和商湯商量SenseChat V5.5緊隨其后。相比之下，零一萬物的Yi-Large、百度的文心ERNIE-4.0-Turbo以及昆侖天工的SkyChat-3.0則在金融數學計算方面表現稍顯遜色，分別位列倒數第三、倒數第二與倒數第一的位置。

商務文本翻譯場景中，Anthropic Claude 3.5 Sonnet憑借其91.67分的卓越成績，顯著領先于其他競爭對手，谷歌Gemini 1.5 Pro、GPT-4o及字節豆包Doubao-pro-32k緊隨其后，展現了不俗的翻譯實力。然而，騰訊混元hunyuan-pro、智譜GLM-4與昆侖天工SkyChat-3.0在該場景下的表現則稍顯遜色，分別位于榜單的后三位。

轉至財經新聞閱讀場景，昆侖天工SkyChat-3.0以87.75分的佳績拔得頭籌，GPT-4o與Anthropic Claude 3.5 Sonnet緊隨其后。相比之下，智譜GLM-4、百度文心ERNIE-4.0-Turbo及訊飛星火Spark 4.0 Ultra在此方面的表現則稍顯不足，分列該場景排名的后三位。

結論一：大模型之間差距明顯

本次評測結果顯示，幻方求索DeepSeek-V2、騰訊混元hunyuan-pro、Anthropic Claude 3.5 Sonnet、GPT-4o和商湯商量SenseChat V5.5構成第一梯隊。值得注意的是，排名靠前的模型中，國產大模型表現突出，與頂級海外模型實力相當。

然而，從第一名幻方求索DeepSeek-V2（237.75分）到第十五名訊飛星火Spark 4.0 Ultra（197.83分），總分差距達到了近40分，反映出大模型間仍存在顯著差距。

結論二：數學計算能力成普遍短板

各款大模型數學計算方面普遍存在不足。

15款參評模型中，僅有騰訊混元hunyuan-pro、幻方求索DeepSeek-V2、商湯商量SenseChat V5.5、字節豆包Doubao-pro-32k這4款大模型超過60分。即使是在其他場景表現出色的模型，如Anthropic Claude 3.5 Sonnet和GPT-4o，在此項測試中也僅得到59分。

具體而言，騰訊混元hunyuan-pro表現較為突出，從第1期評測這個計算題第六名一躍成為本期第一；字節豆包Doubao-pro-32k從第八名提升到第四名。

同時，經過版本更新的商湯商量SenseChat系列，在第2期評測中也以SenseChat V5.5的新姿態亮相，并實現從原先第十四名到第三名的巨大跨越。

上一期的“黑馬”幻方求索DeepSeek-V2依然表現出突出且穩定的計算能力，在兩期評測的計算題中均排名第二名。

與之形成鮮明對比的是，零一萬物Yi-Large在上期評測的計算題中排名第三，但在此次評測中跌落至倒數第三。

從具體題目分析，對于用一步計算即可得到答案的簡單計算題，15款大模型均表現良好。然而，面對計算公式復雜、步驟較多的題目時，不少大模型表現并不理想。

此外，許多大模型在處理特定數學邏輯與表達規范上存在局限。例如，不能準確區分百分數作差結果應采用的正確表示方式——即應該使用百分點而非直接以百分數形式來表達。

結論三：國內大模型需提高外語能力

整體來看，在商務文本翻譯場景中，參評大模型表現了較高的翻譯水平，平均分達到了84.5分。海外大模型展現出明顯優勢，包攬了該場景下的前三名。

不過，國內外大模型在英譯漢中的得分差距不大，真正使總分拉開差距的是漢譯英。Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro和GPT-4o在漢譯英任務中得分均超過90分。

而國內大模型表現相對遜色，尤其是在“意思準確”與“術語一致性”維度上有待提升。此外，在“意思完整”維度上，幻方求索DeepSeek-V2、昆侖天工SkyChat-3.0相對來說，表現欠佳。而在“細節準確性”維度上，騰訊混元hunyuan-pro、月之暗面moonshot-v1以及字節豆包Doubao-pro-32k的表現有待提升。

結論四：通用大模型各項能力卻不均衡

第2期評測與第1期評測的場景、維度和標準不同，導致部分模型排名變化顯著。盡管都是通用大模型，但存在各項能力不均衡，“偏科”現象嚴重的情況。

具體而言，零一萬物Yi-Large兩期評測的表現波動較大。在第1期評測中，零一萬物Yi-Large位居榜首。然而在第2期評測中，其表現大幅下滑，總排名也跌至倒數第四。

本期評測新加入的大模型昆侖天工SkyChat-3.0，在文章閱讀及問答中排名第一，但在金融數學計算以及商務文本翻譯中卻墊底。

騰訊混元hunyuan-pro的表現則展現了明顯的進步。在第1期評測中，其排名相對靠后。但在第2期評測中，騰訊混元hunyuan-pro總分位列第二，尤其在金融數學計算場景中以78分的成績領先其他大模型。

相比之下，幻方求索DeepSeek-V2在兩次評測中都表現出色。在第1期評測中，幻方求索DeepSeek-V2排名第三；而到了第2期評測，更是躍居榜首。在計算能力方面，幻方求索DeepSeek-V2均保持了高水平的發揮。

海外大模型中，Anthropic公司的Claude在兩期評測中都表現不俗，但排名有所變動。在第1期中，Anthropic Claude 3 Opus排名第二；在第2期中，Anthropic Claude 3.5 Sonnet盡管在商務文本翻譯任務中表現出色，但總體排名略有下降，排在第三位。

每日經濟新聞大模型評測小組
2024年9月

????

未來，每日經濟新聞將基于評測報告，精選各場景下的優秀大模型，開發相應的功能，在每經App上線，為用戶帶來高效、高質的AI工具與全新體驗。

同時，“每日經濟新聞大模型評測小組”將繼續深入探索大模型的無限可能，從實際應用場景出發，對各個大模型進行全方位的評測，并定期推出專業報告，帶來最前沿的洞察和發現。

在此，我們誠摯地邀請您，加入評測項目。