每日經濟新聞 2024-06-26 13:20:25
每經編輯 畢陸名
26日,360集團創始人、董事長@周鴻祎在微博發布視頻稱,他認為“OpenAI對中國地區停止服務只能加速中國自己大模型產業的發展,未必是一個壞事。”他解釋道:“OpenAI的API無法調用,這逼著國內應用只能選擇國產大模型,而國產大模型與GPT的差距已經逐漸縮小了。”
消息面上,6月25日,OpenAI向中國用戶發布郵件稱,自7月9日起阻止來自非支持國家和地區的API流量。受影響組織若希望繼續使用OpenAI的服務,必須在其支持的國家或地區內訪問。目前,OpenAI的API向161個國家和地區開放,由于中國未在其中,這意味著OpenAI將終止對中國提供API服務。
值得一提的是,25日,每日經濟新聞大模型評測報告(第1期)發布?!睹咳战洕侣劥竽P驮u測報告》(第一期)顯示,國產大模型正在全面趕超海外大模型,零一萬物Yi-Large成為最大“黑馬”,在“財經新聞標題創作”“微博新聞寫作”“文章差錯校對”“財務數據計算與分析”四大應用場景的總分排名第一。幻方求索DeepSeek-V2、百川智能Baichuan4則在“財務數據計算與分析”場景顯示出強大的數據計算和分析能力。而一直備受各界推崇的GPT 4.0在本次評測中表現不佳,甚至在“財經新聞標題創作”場景中排名墊底。
據媒體報道,25日,OpenAI宣布終止對包括中國大陸在內的地區提供API服務。25日凌晨,部分開發者收到了來自OpenAI官方的郵件。
郵件顯示:“我們的數據顯示,貴組織的APl流量來自OpenAl目前不支持的地區。您可以在此處找到受支持的國家和地區。我們將從7月9日開始采取額外措施,阻止來自不在我們支持的國家和地區列表中的地區的APl流量。要繼續使用OpenAl的服務,您需要在受支持的地區訪問服務。”
據悉,目前OpenAI的API向161個國家和地區開放,但中國大陸未包含在其中。這也意味著,OpenAI宣布終止對中國大陸提供API服務。
阿里云百煉第一時間宣布,將為OpenAI API用戶提供最具性價比的中國大模型替代方案,并為中國開發者提供2200萬免費tokens和專屬遷移服務。根據斯坦福最新公布的大模型測評榜單HELM MMLU,Qwen2-72B得分為0.824,與GPT-4并列全球第四。通義千問GPT4級主力模型Qwen-plus在阿里云百煉上的調用價格為0.004元/千tokens,僅為GPT-4的50分之一。
6月25日,智譜推出OpenAI API用戶特別搬家計劃,幫助用戶切換至國產大模型。具體來看,智譜為開發者提供:1.5億Token(5000萬GLM-4+1億GLM-4-Air);從OpenAI到GLM的系列遷移培訓。對于高用量客戶,智譜提供與OpenAI使用規模對等的Token贈送計劃(不設上限),以及與OpenAI對等的并發規模等。
6月25日,百度智能云千帆推出大模型普惠計劃,即日起為新注冊企業用戶提供0元調用、0元訓練、0元遷移等服務。
其中,文心旗艦模型首次免費,贈送ERNIE3.5旗艦模型5000萬Tokens包,主力模型ERNIE Speed/ERNIE Lite和輕量模型ERNIE Tiny持續免費;針對OpenAI遷移用戶額外贈送與OpenAI使用規模對等的ERNIE3.5旗艦模型Tokens包。以上優惠活動均在2024年7月25日24點前適用。
近期,由30余位每日經濟新聞優秀記者、編輯和子公司每經科技工程師組建的“每日經濟新聞大模型評測小組”,對市場上主流大模型在財經新聞工作場景中的表現與能力進行了歷時2個月深入評測,并于6月25日發布了《每日經濟新聞大模型評測報告》(第一期)。
《每日經濟新聞大模型評測報告》(第一期)顯示,國產大模型正在全面趕超海外大模型,零一萬物Yi-Large成為最大“黑馬”,在“財經新聞標題創作”“微博新聞寫作”“文章差錯校對”“財務數據計算與分析”四大應用場景的總分排名第一。幻方求索DeepSeek-V2、百川智能Baichuan4則在“財務數據計算與分析”場景顯示出強大的數據計算和分析能力。而一直備受各界推崇的GPT 4.0在本次評測中表現不佳,甚至在“財經新聞標題創作”場景中排名墊底。
經過評測,《每日經濟新聞大模型評測報告》(第一期)得出以下結論。
結論一:國產大模型正全面趕超
國產大模型正逐漸展現出其競爭力。與國外大模型相比,它們在多個任務上的表現已經顯示出趕超之勢。
國產大模型在多個測試場景中排名靠前。商湯商量SenseChat-5三次占據前五席位,兩次擊敗谷歌Gemini 1.5 Pro。在國外模型中,Anthropic Claude 3 Opus同樣在三個測評場景中排名前五,谷歌Gemini 1.5 Pro在“財經新聞標題創作”和“文章差錯校對”兩個場景中排名第一。令人意外的是,一直備受各界推崇的GPT 4.0卻在本次評測中整體表現不佳,在每個場景中都未能斬獲前五名,甚至在“財經新聞標題創作”中排名墊底。
“財經新聞標題創作”場景中,商湯商量SenseChat-5、字節豆包Doubao-pro-32k和百度ERNIE 4.0等,在信息提煉準確和重要新聞點突出方面與谷歌的Gemini 1.5 Pro不相上下。
“微博新聞寫作”場景中,百度文心ERNIE 4.0、商湯SenseChat-5等模型的總分與國外模型Anthropic Claude 3 Opus并列第一。
“文章差錯校對”場景中,零一萬物Yi-Large是唯一一款得分超過100分的國產大模型。國產大模型比國外大模型更能理解漢語句式和表達規范。但在查找并修改錯別字、標點使用不當、數字和量詞錯誤、事實和信息錯誤等要求更精準的任務方面,還有提升空間。
“財務數據計算和分析”場景中,Anthropic Claude 3 Opus總分雖領先,但對幻方求索DeepSeek-V2和零一萬物Yi-Large的優勢并不大。尤其是幻方求索DeepSeek-V2成為此場景評測中一匹“黑馬”,其“財務數據分析”能力突出。
結論二:大模型各有專長
不同模型在特定場景、特定維度、特定指標上的表現差異顯著。體現了它們在各自領域的專長。
例如,谷歌Gemini 1.5 Pro在“財經新聞標題創作”和“文章差錯校對”兩大場景中排名第一。在“微博新聞寫作”場景中,該模型整體排名靠后。
Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4則顯示出了強大的數據計算能力。
結論三:在跨語言環境下差異明顯
以“微博新聞寫作”場景為例,百度文心ERNIE 4.0、商湯商量SenseChat-5與Anthropic Claude 3 Opus并列第一。這反映了國產大模型在微博這一國內社交媒體場景下的卓越表現。國產大模型更能夠準確把握微博用戶的內容偏好和交流方式,生成符合平臺特性和用戶期待的微博文案。
相比之下,谷歌Gemini 1.5 Pro在微博寫作的運營維度上得分為0,可能源于其對微博平臺特性和用戶行為的不熟悉。
在中文語境之下,GPT 4.0在全部4個場景中的排名均不理想。這一現象突顯了大模型在跨語言和文化環境中的適應性問題,也表明了國產大模型在本土化應用上具有天然優勢。
結論四:信息提取能力參差不齊
從文章中準確提取關鍵信息,是對大模型能力的一項關鍵挑戰。本期評測中“文章差錯校對”場景正包含了對這一能力的測試。
谷歌Gemini 1.5 Pro憑借其在錯別字、標點使用不當、數字和量詞錯誤、事實和信息錯誤的查找和糾錯方面與其他大模型拉開了差距。
相比之下,零一萬物Yi-Large在病句查找和糾錯方面則位居首位,本可以挑戰谷歌Gemini 1.5 Pro,但在錯誤查找方面的表現拖了后腿。
大模型信息提取能力的差異可能與模型的訓練數據、算法設計以及對語言細微差別的捕捉能力有關。增強大模型的信息提取能力,可以提高其生成結果的準確度,更能讓大模型適用于對準確性要求極高的新聞工作。
每日經濟新聞綜合@周鴻祎
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP