<cite id="apcyb"></cite>

<dfn id="apcyb"><rp id="apcyb"></rp></dfn>

<cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

<tt id="apcyb"></tt>

每日經濟新聞

每經網首頁丨
宏觀丨
金融丨
公司丨
視頻丨
券商丨
IPO丨
基金丨
汽車丨
房產丨
新文化丨
未來商業丨
文創通丨
城市丨
每經商學院

要聞

每經網首頁 > 要聞 > 正文

13.8%和13.11%哪個大？《歌手》排名引網友熱議！一眾大模型竟然也翻車，ChatGPT更是胡言亂語……

每日經濟新聞 2024-07-17 12:55:40

每經編輯王月龍

7月13日

最新一期的《歌手》公布排名

孫楠得票13.8%

外國歌手香緹莫得票13.11%。

引發了網友對排名的質疑

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3baLqQR2QclTV36qRJicVrxRDjZib88iaz5NUe9ickxwqz9YNn9YjUBbOunw.png

不少網友認為13.11%大于13.8%，

因此，香緹莫的得票率比孫楠高。

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3bRiaYg9BVp2iclFl16KsRL1bibtvUqG8cNc3LMmBh3avD4UzgvfZ8zJWow.png

e7Jp2CicGtKCqLuiaMOeajFZcMRht9hZ3bB0ia9h15ziacJsrLtxb9l1XI4OCD0UBIxZ9HCTVxvAtwEKEAicFiackKug.png

隨后，關于13.8和13.11大小比較的話題，

迅速沖上微博熱搜！

其實，這個知識點

在小學四年級的課本中就有答案。

然而，這道小學生難度的數學題

也難倒了一眾海內外AI大模型。

據第一財經、財聯社等媒體測試，ChatGPT、Kimi、智譜清言、商湯商量、階躍星辰等大部分大模型應用紛紛翻車，而文心一言、字節豆包等少部分大模型則守住了尊嚴。

CFF20LXzkOzG21u7XsBajickl1hWricc8fz9QEJL2vVFTPb4ibKd0dWYOpZ1Sf5brbtSqUeSMVZHjVFm0vxs86o2Q.jpg

值得注意的是，ChatGPT等大模型出現了胡說八道的現象。在為13.8填補了13.80的零位數后，才得出了正確的回答。這類大模型說胡話的現象，在業界被稱為大模型出現幻覺。此前，哈爾濱工業大學和華為的研究團隊發表的綜述論文認為，模型產生幻覺的三大來源：數據源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式，如位置接近性、共現統計數據和相關文檔計數，從而導致幻覺。此外，大模型還可能會出現長尾知識回憶不足、難以應對復雜推理的情況。

有產業界人士表示，目前大模型的幻覺率仍然較高，這也是產業界缺乏真正顛覆性應用的原因之一，業界都在共同解決這一核心問題，讓大模型在業務流程中變得更可控。

據極目新聞，今年6月19日，上海人工智能實驗室發布首個AI高考全卷評測結果，本次評測采用全國新課標Ⅰ卷，其中，語文評卷顯示，大模型的現代文閱讀理解能力普遍較強，但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題，雖有針對性，但缺乏修飾，幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數大模型不理解“本體”“喻體”“暗喻”等語文概念。對于文章中的一些“潛臺詞”，大模型也無法完全理解。

數學評卷顯示，大模型的主觀題回答相對凌亂，解題過程有迷惑性，甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力很強，但無法在解題過程中靈活運用。

大模型的英語整體表現良好，大模型寫的英語作文普遍存在因超出字數限制被扣分的情況，而人類考生大多因為字數不夠被扣分。

據第一財經，一位算法工程師認為，生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數據訓練過程中學到的是相關性，使得AI在文字創作上達到人類平均水平，而數學推理更需要的是因果性，數學是高度抽象和邏輯驅動的，與語言模型處理的語言數據在本質上有所不同。這意味著大模型要學好數學，除了學習世界知識外，還應該有思維的訓練，從而具備推理演繹能力。

不過，上述問題也正在慢慢被解決，在思維能力上更核心的可能還是訓練語料的問題。大語言模型主要通過互聯網上的文本數據進行訓練，而這些數據中數學問題和解決方案相對較少，導致模型在數學推理和問題解決技能上的訓練機會有限。

值得一提的是，大模型的復雜推理能力尤為重要，這關乎可靠性和準確性，是大模型在金融、工業等場景落地需要的關鍵能力。

“現在很多大模型的應用場景是客服、聊天等等，在聊天場景一本正經胡說八道影響不太大，但它很難在非常嚴肅的商業場合去落地。”上海人工智能實驗室領軍科學家林達華此前表示，復雜推理關系到落地應用時大模型的可靠性，例如在金融這樣的場景下不能在數字上有差錯，會對數學上的可靠性有較高的要求。另外隨著大模型進入商用，若要分析一家公司的財報，甚至是工業領域要去分析一些技術文檔，這時數學方面的計算能力就會成為一個壁壘。

編輯|王月龍杜恒峰

校對|盧祥勇

每日經濟新聞綜合公開信息、第一財經、財聯社、極目新聞

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

一年創收34億美元！OpenAI營收拆解：84%來自近1000萬名ChatGPT付費用戶，API僅占15%

返回每經網首頁

下一篇文章

清華最新公告：謝絕此類“一日游”

相關文章

熱文精選

點擊排行

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

相關信息
關于我們
版權聲明

關注我們
辟謠專區

加入我們
招聘專頁

Copyright ? 2024 每日經濟新聞報社版權所有，未經許可不得轉載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網絡社會征信網

兒童色情信息舉報專區

成都市互聯網不良與違法信息舉報中心

四川省互聯網舉報中心

中國互聯網舉報中心

每日經濟新聞互聯網不良與違法信息舉報中心

互聯網新聞信息服務許可證：51120190017 網站備案號：蜀ICP備19004508號-3 川公網安備 51019002002026號

新聞職業道德監督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九

<cite id="apcyb"></cite>

<dfn id="apcyb"><rp id="apcyb"></rp></dfn>

<cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

<tt id="apcyb"></tt>