每日經濟新聞 2023-08-19 21:08:05
每經記者 文巧 蔡鼎 譚玉涵 每經編輯 王月龍 孫宇婷
8月16日,《紐約時報》稱若未提前獲得書面同意,原則上禁止將新聞報道和圖片等用于人工智能開發。這或許是一個信號,意味著未來可供科技公司用于大模型訓練的高質量數據或越來越受限。據悉,可用于訓練的高質量數據或于2026年耗盡。目前,微軟、OpenAI等公司已經在測試用計算機合成的數據用于訓練其AI系統。合成數據真的是AI時代的“新鋰礦”?它有哪些風險?
本周,梅西率邁阿密國際首次闖入美聯杯決賽,貝克漢姆隨后在Instagram上發帖慶祝。據外媒報道,隨著梅西的加入,邁阿密國際在明年將成為美職盟歷史上第一支估值超過10億美元的足球隊。貝克漢姆的商業版圖有多大?"一周人物"帶你走近從球員到球隊老板的貝克漢姆。
8月18日凌晨,大型加密貨幣突然集體暴跌。數據顯示,近24小時,共有17.1萬人爆倉。此外,Arm IPO計劃引華爾街全體出動,目前已聘請28家機構擔任承銷商。
更多內容,盡在《一周國際財經》。?
數據荒來了!可用于訓練的高質量數據或于2026年耗盡
合成數據成AI時代的“新鋰礦”?
圖片來源:視覺中國
人造數據已經達到極限,接下來是AI“喂養”AI的世界?
8月16日,據報道,《紐約時報》變更了服務條款,稱若未提前獲得書面同意,原則上禁止將新聞報道和圖片等用于人工智能(AI)開發。這意味著未來可供科技公司任意使用來訓練大型語言模型(LLM)的高質量數據越來越有限。
ChatGPT引起的AI競爭如火如荼,科技公司為了喂養自己LLM,不得不使出渾身解數尋找訓練數據,伴隨而來的是一輪數據大戰。經濟學人報道稱,谷歌和Meta這兩家科技巨頭的最新AI模型已經接受了超過1萬億個單詞的訓練。數據,已經是AI時代的“新鋰礦”了。
由于對數據的需求增長如此之快,研究機構Epoch ai認為,到2026年,可用于訓練的高質量文本庫存可能會耗盡。但隨著生成式AI軟件變得越來越復雜,數據需求越來越高,即使是財力雄厚的AI公司也將耗盡易于訪問的高質量數據來進行訓練。
合成數據就成了一個新的出路。金融時報在上月爆料,微軟、OpenAI和Cohere等公司已經在測試用計算機合成的數據用于訓練其AI系統,來進一步提高LLM的能力。
今年5月,在倫敦舉行的一次活動中,OpenAI 首席執行官Sam Altman被問及是否擔心監管機構對ChatGPT潛在侵犯隱私的調查,Altman稱他“非常有信心很快所有數據都將成為合成數據”。
數據大戰:爭奪有限的資源為生成式AI提供動力的超大型模型依賴于海量數據。目前,為 ChatGPT 和Bard 等聊天機器人提供支持的LLM主要通過抓取互聯網數據來進行培訓,用于訓練這些系統的數據包括數字化書籍、新聞文章、博客、搜索查詢、X(前Twitter)和Reddit的帖子、YouTube 視頻和Flickr圖像等內容。
據經濟學人報道,谷歌和Meta(前Facebook)這兩家科技巨頭的最新AI模型已經接受了超過1萬億個單詞的訓練。相比之下,在線百科全書維基百科上的英語單詞總數約為40億個。
數據的價格是高昂的,早在2018年,微軟就斥資高達75億美元收購了軟件代碼存儲庫GitHub作為專門的數據信息集,用于開發一種代碼編寫AI工具。
隨著數據需求越來越大,為了構建更強大的模型,模型構建者們也急于尋找越來越多的新數據源來維持瘋狂的“喂養”。正是看中這種巨大的需求,擁有大量此類數據資源的公司正在權衡如何最好地從中獲利,他們也理所當然地擁有了更多的議價能力。
例如,Reddit和 Stack Overflow增加了訪問其數據的成本,X已采取措施限制機器人抓取該網站的能力,并且現在向任何希望訪問其數據的人收費。每經記者查詢Reddit官網發現,免費使用該網站數據API的速率限制為:每個客戶端ID每分鐘僅能查詢100次;若不使用客戶端ID,則每分鐘僅能查詢10次;若要超過這些限制,則需要為每1000個API請求(API Call)付費0.24美元。
盡管如此,為了獲取更多數據來訓練出更優秀的LLM,科技公司們當然不惜掏空腰包。
7 月,OpenAI與美聯社簽署了一項協議。最近,該公司還擴大了與圖庫攝影提供商 Shutterstock 的協議,Meta也與Shutterstock達成了協議。8 月,谷歌被曝正在與唱片公司環球音樂進行討論,以授權藝術家的聲音來支持AI歌曲創作。這些合作都未透露具體的金額。
隨著數據需求的增大,初創公司也紛紛涌入,渴望分得一杯羹。4 月份,專注于人工智能的數據庫公司Weaviate籌集了5000 萬美元,估值達2億美元;不到一周后,另一家數據初創公司PineCone以7.5億美元的估值籌集了1億美元;本月早些時候,Neon又籌集了4600萬美元的資金。
合成數據:AI模型的新食物科技公司爭先恐后入局生成式AI,造成“僧多粥少”的局面也是必然的。研究機構Epoch ai認為,對數據的需求增長如此之快,到2026年,可用于訓練的高質量文本庫存可能會耗盡。
面對數據短缺的困境,微軟、OpenAI和Cohere開始率先轉向合成數據作為新的解決方案。合成數據是指使用AI模型來生成與真實數據相似但不完全相同的數據,用于訓練其他AI模型。
例如,為了訓練高等數學模型,Cohere會使用兩個相互對話的AI模型,其中一個充當數學導師,另一個充當學生。人類作為監督的角色,如果模型說錯了什么,就會介入并糾正。
Cohere 的首席執行官Aidan Gomez表示:“如果你能從網絡上獲取所需的所有數據,那就太棒了。但事實上,網絡是如此嘈雜和混亂,以至于它并不能真正代表你想要的數據。網絡并不能滿足我們所需的一切。”
微軟研究院的兩個研究表明,使用合成數據“喂養”AI是可行的。以用GPT-4生成的一個“四歲兒童小說”數據集TinyStories為例,這個數據集被證明雖然只包含4歲小孩能理解的單詞,但用于訓練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事。
另一篇論文則表明,AI可以通過合成Python代碼進行訓練,并且這些代碼在編碼任務上表現相對較好。
圖片來源: arXiv.org
Gomez指出,為了提高LLM的性能,并能夠應對科學、醫學或商業方面的挑戰,AI模型將需要獨特且復雜的數據集。這些數據要么必須由科學家、醫生、作家、演員或工程師等世界專家創建,要么從制藥、銀行和零售商等大公司獲取專有數據?!叭欢?,這些人類創建的數據非常昂貴?!倍铣蓴祿某杀緝瀯輨t非常明顯,因為它不需要收集和標注真實數據。
新難題出現:合成數據質量被質疑隨著合成數據這一新趨勢的出現,Scale AI和Gretel.ai等初創企業如雨后春筍般涌現,專注為科技公司提供合成數據服務。在這些公司中,Gretel還獲得了谷歌、匯豐銀行、Riot Games和Illumina等公司的支持。而在SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數據集中,有數百萬行是來自Scale AI和內部的指令微調數據。
這意味著,越來越多的大型公司開始介入合成數據的領域了。
不過,雖然合成數據看起來很有前景,但也有批評聲指出它不能反映或改進現實世界的數據。合成數據的質量和可靠性取決于生成它的AI模型的水平和方法,如果生成的數據與真實數據存在差異或錯誤,那么訓練出來的模型也可能會出現問題。
隨著AI生成的文本和圖像開始充斥互聯網,AI公司在網絡上抓取訓練數據很可能最終將不可避免地使用其自己模型的原始版本生成的原始數據——這種現象被稱為“dog-fooding”。
牛津大學和劍橋大學等大學最近的一項名為The Curse of Recursion: Training on Generated Data Makes Models Forget的研究就警告稱,根據自己的原始輸出(可能包含虛假或捏造的內容)訓練AI模型,隨著時間的推移可能會破壞和降低技術性能,從而導致“不可逆轉的缺陷”。
該論文作者、劍橋大學和愛丁堡大學安全工程教授Ross Anderson直言:“正如我們用塑料垃圾布滿了海洋,用二氧化碳填滿了大氣層,我們即將用廢話填滿互聯網?!?/strong>
對于這一點,Gretel首席執行官Ali Golshan也同意,“網絡上的內容越來越多地由AI生成,我確實認為隨著時間的推移,這將導致內容退化,因為語言模型正在產生重復的知識,沒有任何新的見解?!?/strong>
從球員到老板,貝克漢姆率邁阿密國際走向估值超10億美元俱樂部
圖片來源:Instagram截圖
美東時間8月16日,梅西領銜的邁阿密國際在北美聯杯半決賽上4:1完勝費城聯隊。至此,距離這只成立僅5年的俱樂部史上的第一座冠軍獎杯,只剩下一場決賽。
賽后,作為球隊老板之一貝克漢姆在Instagram上更新了動態,曬出梅西慶祝進球的照片,并配文道:“又一個美妙的夜晚,對我們的球隊、球迷、俱樂部來說是多么棒的時刻,這是我們@邁阿密國際歷史上第一次的決賽。”
其實,貝克漢姆的職業生涯,始終伴隨著“商業化”三個字。球員期間他就受到不少品牌的青睞,代言范圍廣泛,已經賺的缽滿盆滿。退役后小貝的收入不減反增,這都得益于他2007年轉投美國職業足球大聯盟(下稱MLS)時簽下的兩條協議。
2007年登陸MLS洛杉磯銀河時,貝克漢姆年薪雖然只有650萬美元,但他的合同中,包含兩個特殊條款:其一,獲得俱樂部總收入的分成;其二,貝克漢姆與MLS簽下合約,退役之后,他能以2500萬美元的價格,買下一支球隊進軍MLS。隨著近年來MLS入場費的暴增,貝克漢姆當年簽下的條款換來人生的再次騰飛。有體育商業專家指出,在美國踢球、收購運營俱樂部,貝克漢姆賺了超過5億美元!
在洛杉磯銀河退役后不久,貝克漢姆2013年就開始著手籌建新球隊。2018年9月,貝克漢姆宣布在美職聯成立一家名為“邁阿密國際”的足球俱樂部。這支球隊的標志是兩只粉色的火烈鳥,寓意著邁阿密的熱情和多元化。貝克漢姆表示,他希望這支球隊能夠吸引全世界的球迷,并且打造出一支有競爭力和魅力的球隊。
由于足球這項運動在美國的受歡迎程度并不如籃球和橄欖球,加上俱樂部場館建設的巨大開銷,貝克漢姆成立邁阿密國際的早期并談不上一帆風順。
然而,梅西的加盟讓邁阿密國際的估值大漲。據美國體育產業媒體去年9月的報道,邁阿密國際當時的估值僅為5.85億美元,位于MLS聯盟29支球隊中的第10位。美國體育產業記者邁克爾·金尼迪預計,因為梅西的加盟,邁阿密國際在下一個自然年將成為美國職業聯盟(下稱MLS)歷史上第一支估值超過10億美元的足球隊。
而貝克漢姆的商業版圖,遠遠不止目前因為梅西的到來而紅遍全美的邁阿密國際。例如,僅僅在成立邁阿密國際不到半年時間里——2019年年初,貝克漢姆就宣布買下英格蘭乙級聯賽球隊索爾福德城股份10%的股份,與“92班”的隊友吉格斯、斯科爾斯、尼基·巴特、加里和菲爾·內維爾一起,成為該俱樂部老板。
退役后的貝克漢姆涉足體育以外的商業版圖,時間甚至要更早。
2014年,貝克漢姆在好友的幫助下成立了Beckham Brand Holdings Ltd.,該公司旗下除了時尚品牌Victoria Beckham Ltd以外,還有一家投資公司DB Ventures Ltd.,負責處理貝克漢姆相關的肖像權、品牌授權和其他商業用途。
DB Ventures旗下的“David Beckham”品牌包括貝克漢姆黑格俱樂部威士忌品牌,帝舵表、百事可樂、三星和阿迪達斯、澳門金沙度假區、瑪莎拉蒂、健身特許經營商F45 Training的代言活動以及GemForex亞洲品牌大使和其他代言活動等。此外,DB Ventures投資與收購的公司包括XIX、Guild Esports(電子競技公司)、Cellular Goods、Lunaz Design等。
貝克漢姆還與人共同創辦了一家舞蹈和音樂表演的活動管理和制作公司Footwork Production, LLC;攜手歐萊雅集團創立了男士美容品牌House 99;創辦了一家電視制作公司Studio 99等。
在房地產投資上,貝克漢姆也有著廣泛的投資組合,擁有:倫敦西部荷蘭公園一棟價值3150萬英鎊的聯排別墅、美國邁阿密一套價值2000 萬英鎊的公寓,以及全球其他豪宅。
在影視領域,2023年年初,貝克漢姆還和迪士尼進行合作,主演一部名為《Save Our Squad》的足球主題電視劇,并在其中飾演一位少年隊的教練,片酬高達7位數美金。
在貝克漢姆的商業合伙人名單里,其妻子維多利亞扮演著重要的作用。她既是Victoria Beckham Ltd.的創始人, 也是貝克漢姆品牌控股公司、維多利亞貝克漢姆公司和維多利亞貝克漢姆控股公司的董事會成員。
慘烈崩盤!17萬人爆倉
馬斯克曝出大動作!
圖片來源:視覺中國
8月18日凌晨,大型加密貨幣突然集體暴跌,日內最大跌幅超13%,一度跌穿2.5萬美元關口,截至發稿,比特幣最新價格回升至26086美元,較7月高點累計跌幅超18%;另外,以太坊日內最大跌幅超13%,一度下破1600美元關口,現報1662美元。
據coinglass數據顯示,最近24小時,共有17.1萬人爆倉,爆倉總金額達10.18億美元(約合人民幣74億元)。
據《華爾街日報》8月17日報道,馬斯克旗下的SpaceX 在去年和2021年總共減記了價值3.73 億美元的比特幣,并且已經出售這些加密貨幣。但尚未確認3.73億美元比特幣是否已經全部出售。另外,根據特斯拉的財報顯示,該公司在2022年第二季度以9.36億美元的價格賣出了3萬多枚比特幣,約占其最初15億美元比特幣持倉的75%。
Arm IPO,華爾街全體出動
圖片來源:每經記者 朱成祥 攝
據彭博社報道,知情人士透露,全球最大半導體IP廠商Arm已經聘請28家機構擔任今年首次公開募股(IPO)承銷商,預計最快將于8月21日披露IPO計劃。
Arm的IPO幾乎讓華爾街全體出動。巴克萊銀行、高盛、摩根大通和瑞穗四家大型投行將擔任主承銷商,另外還有10家二級承銷商和14家三級承銷商,前者包括美銀、花旗、德銀,后者也囊括了匯豐、大和證券和法興銀行等。
外媒援引知情人士的話報道稱,軟銀最近收購了旗下愿景基金持有Arm25%的股份,該交易對ARM的估值略高于640億美元,這表明軟銀可能希望通過下月在紐約進行的Arm的IPO實現這一估值。預計軟銀最早將于下周一公布其F-1文件,這份文件將列出Arm的財務和運營細節。軟銀計劃在此次發行中出售該公司約10%的股份。
SpaceX終于賺錢了!
最新估值1500億美元,與英特爾相近
圖片來源:視覺中國
據《華爾街日報》當地時間周四報道,億萬富翁埃隆?馬斯克旗下太空探索公司SpaceX的財務數據顯示,該公司2023年第一季度的收入為15億美元(約109.65億元人民幣),總利潤達到5500萬美元(約4.02億元人民幣)—— 該公司在經歷了兩年大幅虧損(但虧損幅度不斷收窄)之后,終于實現了小幅度的盈利。
今年7月中旬馬斯克旗下SpaceX告訴部分投資者,預計2023年該公司將實現約80億美元的營收,大約是上一年收入的兩倍。
該公司還向投資者保證,以不包括制造火箭和衛星相關費用的標準計算,預計今年將獲得約30億美元(當前約214.5億元人民幣)的營業利潤,至少以不包括與制造火箭和衛星相關的費用的衡量標準而言是這樣。
在創立超過20年后,SpaceX已經成為在美國市場具有統治地位的火箭發射公司,也是NASA往國際空間站接送美國宇航員的唯一渠道。根據早些時候的報道,SpaceX給公司股票定的最新估值為1500億美元,大致與英特爾相近。
買家支付能力創近40年新低
巴菲特卻在樓市押下重注
圖片來源:視覺中國
供應緊張引發的房價上漲,加上抵押貸款利率的上升,已經將美國的房地產買家們的住房負擔能力壓低至近40年來的最低水平。
美東時間周四(8月17日),房地美30年期固定抵押貸款的平均利率從一周前的6.96%躍升至7.09%,創2002年以來新高,且較一年前的5.13%大幅上漲。對于房地產市場內的潛在買家來說,等待融資成本回落就像是一場風險極高的賭博。
而在這樣的行情下,巴菲特卻開始在樓市押下重注。伯克希爾哈撒韋本周一提交給SEC的文件顯示,該公司已投資美國三大房屋建筑商:霍頓房屋、萊納建筑以及NVR Inc.,持股總價值超過8億美元。這三家公司年初至今的累計漲幅均超過30%。
對此,全球房產科技公司居外IQI集團聯合創始人兼集團CEO Kashif Ansari在接受《每日經濟新聞》記者采訪時指出,“利率的高企使的業主們越來越不愿賣掉手頭現房,因此更多的買家會轉向新房市場,這對房屋建筑商是一個利好。同時,越來越多的買家會轉向出租房市場,從而推高房租,出租公寓市場會變得引人關注。”
VinFast上市不到一周,股價過山車
越南首富失血230億美元
“越南版特斯拉”VinFast Auto(VFS)周五收跌23%,收報15.40美元,美股盤初一度跌至11.61美元、日內最大跌幅達到驚人的42%。至此,VFS已經連續第三個交易日下跌。
本周二,VinFast完成與一家特殊目的收購公司(SPAC)Black Spade Acquisition的合并,在納斯達克交易。當日其股價一路高歌,盤中最高觸及38.78美元,報收37.06美元,收盤漲幅達254.64%。
伴隨著VinFast股價的巨震,自其美國上市以來,Pham Nhat Vuong董事長兼創始人、持有VinFast絕大多數股票的越南首富潘日旺的凈財富也大幅波動。據彭博,潘日旺在IPO當日的身家暴增390億美元,這是財富計算指數有史以來最大的增幅之一。不過根據最新的彭博億萬富翁指數,其身家在三天內暴跌了約52%,失血230億美元,至212億美元。盡管如此,潘日旺的財富仍然比VinFast上市前大幅增加。
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前核實。據此操作,風險自擔。
記者|文巧?蔡鼎?譚玉涵
編輯|王月龍?孫宇婷?易啟江校對|程鵬
|每日經濟新聞 ?nbdnews??原創文章|
未經許可禁止轉載、摘編、復制及鏡像等使用
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP