每日經濟新聞 2024-09-25 12:44:21
每經記者 朱成祥 每經編輯 梁梟
9月25日上午,“解碼未來:全球數智趨勢”專題論壇在上海浦東成功舉辦。論壇由工業和信息化部工業文化發展中心、上海市經濟和信息化委員會、上海市浦東新區人民政府主辦。
本次專題論壇是工業文明國際論壇的分論壇之一。主論壇以“工業文明·中國力量”為主題,設一個主論壇和三個分論壇,來自多個國家的政府代表和專家、企業家,聚焦工業文明變遷、人工智能和在線新經濟、新能源和智能網聯汽車、先進材料、生物醫藥、產城人文、工業博物館等熱點議題展開討論。
在“解碼未來:全球數智趨勢”專題論壇上,復旦大學計算機科學技術學院教授張奇以“大語言模型能力邊界與發展思考”為題發表了主題演講。張奇認為,圍繞長上下文建模、多任務學習、跨語言遷移性、文本生產能力這些核心能力,與場景做結合,將有巨大的價值。對于未來的大模型,清晰認知它的能力邊界非常重要。如果對能力邊界有共識,對于未來投資的力度和方向就有很好的把握。但是可能還需要一定的時間,或許一年、兩年的時間才能完成確認(認知能力邊界)。
張奇發表主旨演講 圖片來源:主辦方供圖
張奇提到,2023年,大家認為大模型無所不能,所有的地方都可以使用,可以寫code(代碼),可以做醫療,能夠做很多東西。但是干了一年后,大家發現,大模型落地總是差那么一口氣。
他舉例,去問大模型一句詩的下一句是什么,它可以做得很好,但是如果讓它回答一句詩的前面一句是什么,或者一個成語的中間一個字是什么,結果會變得非常差。這也就讓我們思考,為什么大模型會出現這些情況,它能做什么,不能做什么。
對于微調階段,張奇認為,這和前一階段的訓練數據非常相關,想讓它有什么樣的能力,就得準備什么樣的訓練數據,而且是非常精心地準備,這和自然語言處理的邏輯非常不同。過去可以大量加訓練數據,現在完全不是。
關于大模型能力邊界,張奇認為,目前可以確認的大模型的能力是上下文建模、多任務學習、跨語言遷移性、文本生成能力。
文本生產能力方面,張奇稱,在ChatGPT之前,自然語言處理研究者是不敢做自然語言生成的,因為難度非常大。模型大到現在這種程度之后,自然語言生成就可以做得非常好了。
張奇表示,可確認的就是這四個能力。“但是推理怎么樣,我覺得OpenAI還是做了非常值得研究的過程,去年我們也做了很多過程型的推理,但是它的泛化能力怎么樣,以及未來是什么,我覺得還需要非常仔細地研究。”張奇說道。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP