每日經濟新聞 2024-04-30 22:58:28
◎如果每個公司都能訪問相同的基礎模型,那么各個公司處于同一起跑線;而能夠利用自己的數據構建具有真正商業價值的生成式AI應用的公司,就贏在了起跑線上。
每經記者 王紫薇 每經編輯 劉雪梅
基礎模型搭建了之后,企業對生成式AI的建設關鍵來到數據層面。
4月30日,在亞馬遜云科技“無數據不模型——生成式AI時代的數據基座”的媒體溝通會上,亞馬遜云科技大中華區產品部總經理陳曉建強調了數據在生成式AI時代中的關鍵作用。
他表示,數據在生成式AI時代處于核心地位,企業要想在生成式AI時代取得成功,必須從數據做起,利用自身的數據構建具有商業價值的AI應用。
陳曉建認為,企業的數據能力需要構建以下3個方面:模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力,
被問及在云市場進入了AIGC時代,亞馬遜云科技在人工智能推理成本和訓練成本上是否不像在原本的商業模式上有優勢時,亞馬遜云科技方面表示,自己還是看重客戶最終要的是什么。言下之意,亞馬遜云科技希望無論AIGC時代的服務成本怎么變動,自身的商業模式仍是以提供云基礎設施、模型層、應用層的工具與服務為主。
大量的、高質量的數據對生成式AI的重要性已經成為行業共識。
亞馬遜云科技方面此次表示,如果每個公司都能訪問相同的基礎模型,那么各個公司處于同一起跑線;而能夠利用自己的數據構建具有真正商業價值的生成式AI應用的公司,就贏在了起跑線上。
可以說,生成式AI基礎模型的局限性之一,在于無法及時擁有企業的專有數據。如果想讓模型服務于企業發展,那么通過技術手段加速數據與模型的結合,就成了企業數據基座的關鍵能力之一。
陳曉建進一步表示,成功的企業需要懂業務、懂用戶的生成式AI應用,而這些應用的構建需要從數據做起。他舉了位于美國的人工智能初創公司Perplexity的例子,它是如何通過將傳統搜索、客戶數據與大型語言模型相結合,實現了快速增長和用戶吸引的。
也是因此,這家公司是人工智能領域的“紅人”。據悉,Perplexity正進行至少2.5億美元的新一輪融資,估值可能達到25億至30億美元。而這家公司在過去四個月中剛剛進行了兩筆大額資,并且估值實現飛躍:今年1月,Perplexity以5.4億美元的估值籌集近7400萬美元;3月初,Perplexity以10億美元的估值融資約6300萬美元。
目前來說,用企業自身的數據去差異化生成式AI應用、通過數據定制基礎模型的方式主要分為三大類:檢索增強生成(RAG)、微調和持續預訓練。這三種方式在不同應用場景中的適用性和對數據要求不同。
對此,亞馬遜云科技強調了自身在數據基座構建的三大核心能力:模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力。
在數據存儲方面,亞馬遜云科技提供的Amazon S3服務可以滿足用戶在微調和預訓練基礎模型對數據存儲的嚴格要求。同時,Amazon FSx for Lustre文件存儲服務的亞毫秒級延遲和高吞吐性能,將進一步加快模型優化速度。
數據清洗和治理方面,亞馬遜云科技通過Amazon EMR Serverless和Amazon Glue等服務,幫助企業高效完成數據清理、去重和分詞等操作,使企業能夠專注于AI業務創新。
此外,亞馬遜云科技還著重強調了其在向量搜索和無服務器架構方面的創新。其中,檢索增強生成(Retrieval-Augmented Generation,RAG)技術被普遍認為是實現數據與模型結合的主要途徑之一。RAG通過將數據轉換為向量并存儲到向量數據庫中,從而將語義的關聯性轉化為向量間的數學距離問題,以實現內容的關聯性計算。
向量搜索與數據存儲的結合可以帶來多方面的好處,包括更高效和更精確的檢索能力、處理和索引大規模的數據等。目前來說,結合向量搜索和數據存儲的優勢,可以構建出強大的信息檢索系統,滿足現代應用對于速度、準確性、可靠性和智能化的需求。
但這同時也帶來一部分成本問題,比如需要更多的存儲空間。對此陳曉建告訴《每日經濟新聞》記者,存儲上確實會讓成本有所增加,但能夠在整個數據內容檢索時取得更好的效果。
亞馬遜云科技同時表示,自身已在8種數據存儲中添加了向量搜索功能??蛻暨€可以通過Amazon Memory DB內存數據庫,降低生成式AI應用的模型調用成本和響應延遲,并利用和無服務器技術加速創新。在亞馬遜云科技對生成式AI時代數據基座的強調中,可以看到數據處理的重要性以及企業在這一領域面臨的挑戰與機遇。對于亞馬遜云科技來說,為AIGC時代的企業提供更全面的服務也是機遇與挑戰并存。
封面圖片來源:每日經濟新聞 資料圖
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP