<cite id="apcyb"></cite>
  1. <dfn id="apcyb"><rp id="apcyb"></rp></dfn>

  2. <cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

    <tt id="apcyb"></tt>
    每日經濟新聞
    要聞

    每經網首頁 > 要聞 > 正文

    四大維度深度體驗多模態性能,GPT-4o為何被稱作“最強大模型”?

    每日經濟新聞 2024-05-18 16:39:37

    每經記者 文巧    每經編輯 蘭素英    

    Safneuhpuj1716027799156.thumb_head

    圖片來源:每經制圖

    去年3月,GPT-4震撼發布,距今已逾一年。盡管科技巨頭如谷歌、Meta,以及硅谷新貴如Mistral AI、Anthropic在那之后都爭相發布了競品大模型,但似乎至今還未有第二款大模型達到與GPT-4一般橫掃科技圈的力量——直到GPT-4o的誕生。

    當地時間5月13日,OpenAI在萬眾期待中推出了名為GPT-4o的新一代旗艦AI模型。當日,OpenAI首席執行官阿爾特曼發推文表示,新的GPT-4o是OpenAI“有史以來最好的模型”。

    據悉,GPT-4o支持文字、圖像、語音和視頻輸入和輸出,OpenAI承諾未來將免費讓普通用戶使用,同時將開放API給GPT開發者,價格直接便宜50%。目前,該模型僅開放了文本和圖像功能。

    本周,《每日經濟新聞》記者從圖像和文本兩大層面深度體驗了GPT-4o的效果,著重識圖能力的測試。綜合來看,GPT-4o在反應速度上有極大的提升,識圖方面冠絕群雄,不僅能夠準確識別圖片,還能以類人的思維理解圖像內容。而在長文本總結方面,與當前模型的差距并不突出。

    GPT-4o到底是如何“煉”成的?當地時間5月15日,OpenAI聯合創始人之一John Schulman在接受科技播客主持人Dwarkesh Patel采訪時透露,后訓練是提高模型性能的關鍵因素。

    GPT-4o的識圖能力有多牛?四大維度深度體驗

    基于圖片類型,記者將識圖功能的測評分為4大維度,分別為普通圖像、特定專業領域的圖像、數據圖像和手寫圖像。

    一、普通圖像識別

    (1)內容較為單一的圖像

    記者首先選取了一張波士頓動力機器人跨越障礙物的圖像,內容較為簡單,圖上無文字,隨后要求大模型仔細識圖并描述內容。GPT-4o非常出色地完成了任務,細節描述無可匹敵,準確無誤地識別了機器人的運動狀態、地面障礙等豐富細節。

    圖片來源:GPT-4o

    (2)內容較為復雜的漫畫

    接著,記者選取了由多個圖像組成、內容較為復雜的漫畫。GPT-4o可以完整地總結出每一格漫畫的內容,并以準確的順序進行講述。更令人吃驚的是,GPT-4o完全以類人的思維解構了漫畫的邏輯,它能夠理解這是一種“擬人和夸張的手法”,并準確理解了漫畫的幽默感。

    圖片來源:GPT-4o

    二、特定專業領域的圖像

    (1)醫學領域

    記者準備了一張mRNA疫苗工作原理圖,圖像并未直接說明這是一張疫苗工作原理圖,但圖上寫有相應文字,例如“刺突蛋白”、“蛋白質翻譯”和“脂質納米顆粒”等術語。

    GPT-4o的表現驚艷,不僅準確識別了該圖的主旨內容,并依據圖示上的過程用通俗的語言解釋了mRNA疫苗的工作原理。

    圖片來源:GPT-4o 

    (2)房地產領域

    接著,記者選取了一張建筑面積134平方米的戶型圖,讓大模型識圖并總結戶型優劣勢。GPT-4o呈現了總體令人較為滿意的結果,該模型不僅能識別戶型基本情況,分辨出“半贈送”的建筑面,也能夠清楚地總結戶型的優劣勢,但在數據準確性上有待提高。




    圖片來源:GPT-4o 

    三、數據圖像的分析和轉換

    在此維度下,記者選取了一張折柱混合數據圖。GPT-4o能夠準確地識別數據圖上的信息,并按要求以圖表的形式重新呈現,準確率高達100%。

    圖片來源:GPT-4o 

    四、手寫指令和邏輯推理

    最后,記者上了點難度,用手寫的邏輯推理題來測試了GPT-4o的識圖和邏輯推理能力。GPT-4o的回答堪稱完美,不僅準確識別了手寫體文字并遵照指示,且答題邏輯完全合理,也最終給出了正確答案。


    圖片來源:GPT-4o 

    除了識圖功能之外,記者也從文本層面對GPT-4o的長文本總結功能進行了測評。記者選取了一篇近萬字的調查稿件,讓其總結要點。GPT-4o不負眾望地完成了任務。


    圖片來源:GPT-4o 

    GPT-4o是如何“煉”成的?后訓練功不可沒

    從前述體驗看,GPT-4o的反應速度和多模態能力令人印象深刻。OpenAI首席執行官阿爾特曼直言,新的GPT-4o是OpenAI“有史以來最好的模型”。

    那么,GPT-4o的多模態能力是如何“煉”成的呢?這背后的秘密或許可以從OpenAI聯合創始人John Schulman當地時間5月15日與科技播客主持人Dwarkesh Patel的對話中一窺究竟。

    John Schulman在采訪中提到,后訓練(Post-Training)是提高模型性能的有效方法,通過額外的訓練和微調可以顯著提高模型的能力。

    在這里需要區分兩個關鍵的概念,在大模型訓練中通常會提到“預訓練”、“后訓練”等術語。預訓練常在大規模的數據集上進行(通常是讓模仿互聯網上的內容),目標是通過在較大的任務上訓練模型,使得模型學習到通用的特征。

    而后訓練指的是專注針對特定行為優化模型,在預訓練模型的基礎上,使用額外的大規模未標注語料庫繼續訓練模型參數,這個過程可以進一步豐富模型對語言的理解和生成能力,使其獲得更廣泛的知識。

    根據John Schulman的說法,后訓練是GPT-4模型不斷升級的關鍵因素。據悉,當前 GPT-4 的 Elo分數(編者注:一種大模型基準評級標準)比最初發布的版本高出了大約 100 分,而這種改進大部分都是由后訓練帶來的。

    他同時暗示,在未來用于訓練的算力中,OpenAI可能將偏向后訓練。他說道:“模型生成的輸出質量比網上的大多數內容都要高。因此,讓模型自己思考似乎更有道理,而不僅僅是訓練來模仿網絡上的內容。所以,我認為從第一性原理上來說,這是有說服力的。我們通過后訓練取得了很多進步。我希望我們會繼續推動這種方法,并且可能會增加投入到后訓練中的計算力。”

    針對GPT-4o強大的多模態能力,英偉達高級研究科學家Jim Fan發表長文表示,從技術角度來看,這需要對標記化和架構進行一些新的研究,但總體上是一個數據和系統優化問題。

    在Jim Fan看來,GPT-4o很可能是GPT-5的一個早期訓練點,但訓練尚未完成。從商業角度上,他認為,“GPT-4o的定位透露出OpenAI某種不安全感,在谷歌開發者大會之前(發布GPT-4o),(意味著)OpenAI寧愿超越我們對GPT-4.5的心理預期,也不愿因為達不到對GPT-5的極高期望而令人失望。這是一個聰明的舉措,可以爭取更多時間。”目前,業界廣傳GPT-5將在年底發布。

    Jim Fan的觀點與一些業內分析不謀而合。分析認為,OpenAI選擇此時發布GPT-4o,是為了在競爭對手尤其是谷歌不斷發起挑戰的情況下,繼續保持領先地位。

    如需轉載請與《每日經濟新聞》報社聯系。
    未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

    讀者熱線:4008890008

    特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

    GPT 模型 大模型 一周熱點

    歡迎關注每日經濟新聞APP

    每經經濟新聞官方APP

    0

    0

    国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
    <cite id="apcyb"></cite>
    1. <dfn id="apcyb"><rp id="apcyb"></rp></dfn>

    2. <cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

      <tt id="apcyb"></tt>