每日經濟新聞 2023-07-05 18:45:30
◎“如果你看好AI,那你就可以看好向量數據庫?!?月4日,騰訊云正式發布AI原生(AI Native)向量數據庫,騰訊云數據庫副總經理羅云在會后接受采訪如是表示。
◎《每日經濟新聞》記者了解到,目前騰訊云的向量數據庫主要在騰訊內部產品進行探索應用。經過騰訊內部海量場景的實踐,數據接入AI的效率也比傳統方案提升10倍,運行穩定性高達99.99%。不過,從騰訊內部探索,到外部實際的商業化落地,尚需時間。
每經記者 王帆 每經編輯 楊夏
ChatGPT引發的大模型浪潮,催生了數據存儲、檢索需求。傳統關系型數據庫難以處理大規模數據、低時延高并發查詢、模糊匹配等需求,但向量數據庫能夠有效解決這些痛點,因此受到業界青睞。今年5月前后的一個月內,全球有4家向量數據庫創業公司獲得新融資,國內的相關概念股股價紛紛上漲。
“如果你看好AI,那你就可以看好向量數據庫。”7月4日,騰訊云正式發布AI原生(AI Native)向量數據庫,騰訊云數據庫副總經理羅云在會后接受采訪如是表示。羅云認為,向量數據庫是大模型和企業數據之間的橋梁,可以打破大模型訓練的時空限制,能夠被廣泛應用于大模型的訓練、推理和知識庫補充等場景。
《每日經濟新聞》記者了解到,目前騰訊云的向量數據庫主要在騰訊內部產品進行探索應用。經過騰訊內部海量場景的實踐,數據接入AI的效率也比傳統方案提升10倍,運行穩定性高達99.99%。不過,從騰訊內部探索,到外部實際的商業化落地,尚需時間。
圖片來源:視覺中國(圖文無關)
向量數據庫專門用于存儲和查詢向量數據,業界稱之為大模型的“海馬體”。
西南證券今年6月發布的研報指出,與傳統數據庫相比,向量數據庫使用向量化計算,能夠高速地處理大規模的復雜數據;并可以處理高維數據,例如圖像、音頻和視頻等,解決傳統關系型數據庫中的痛點;同時,向量數據庫支持復雜的查詢操作,也可以輕松地擴展到多個節點,以處理更大規模的數據。
7月4日,騰訊云正式發布AI原生(AI Native)向量數據庫Tencent Cloud VectorDB。在發布會上,騰訊方面表示,騰訊云向量數據庫最高支持10億級向量檢索規模,延遲控制在毫秒級,相比傳統單機插件式數據庫檢索規模提升10倍,同時具備百萬級每秒查詢(QPS)的峰值能力、向量數據庫能解決大模型預訓練成本高、沒有“長期記憶”、知識更新不足、提示詞工程復雜等問題,突破大模型在時間和空間上的限制,加速大模型落地行業場景。
發布會后,騰訊云數據庫副總經理羅云在接受包括《每日經濟新聞》記者在內的媒體采訪時表示:“模型的訓練有時間和空間兩個限制。在時間上,訓練一次大模型可能耗時數月,耗費上千萬美金,成本高昂,但(由于預訓練的模式)很難把最新的數據灌注到大模型里,而客戶有時需要使用最新的數據;在空間上,客戶有很多私域的數據,(出于對安全的顧慮)客戶往往不愿意放在公開的場合讓大模型進行訓練,甚至連微調都不愿意把數據給到大模型的廠商。向量數據庫則很好地打破了這兩個限制。”
統計顯示,將騰訊云向量數據庫用于大模型預訓練數據的分類、去重和清洗相比傳統方式可以實現10倍效率的提升,如果將向量數據庫作為外部知識庫用于模型推理,則可以將成本降低2-4個數量級。
騰訊云推出向量數據庫的背后,是大模型訓練對數據的強大需求。羅云表示:“隨著大模型的成熟,未來我們可能不再需要雇傭那么多資深的軟硬件工程師,企業或許能夠更好地享受到大模型抹平技術差異帶來的紅利。因此,我們認為企業和企業之間在未來很長的一段時間的競爭會在數據上,誰能夠更好地利用數據,誰能夠更好地把數據沉淀到自己的工程里面,更好地讓數據接入到大模型和整個AI體系,誰可能就會贏在將來。”
今年5月前后的一個月內,全球有4家向量數據庫創業公司獲得新融資,其中,Pinecone完成1億美元B輪融資,WeaviateBV獲得5000萬美元B輪融資,Chroma獲得1800萬美元種子輪融資,Qdrant獲750萬美元種子融資。在國內A股市場,今年3月以來,云創數據(BJ835305,股價18.84元,市值25億元)、星環科技(SH688031,股價139.76元,市值169億元)、拓爾思(300229.SZ,股價25.79元,市值205.11億元)等多個向量數據庫概念股迎來股價上漲。
“很多客戶和我們提需求,基本上每天不止1到2個客戶前來咨詢向量數據庫什么時候能夠給他們使用。整體來講,大家的關注度,對向量數據庫需求的迫切度都很高。”羅云說道。
一邊是概念火熱和需求高漲,一邊是商業化進程有待成熟。西南證券研報指出,目前整個向量數據庫的賽道仍處于培育階段,受AI大模型熱潮催化,向量數據庫剛剛引起國內市場的關注,目前主要使用者是互聯網巨頭公司。賽道目前處于群雄并起的階段,從融資、技術的角度上來講,目前尚未有寡頭角色出現。
而對于騰訊而言,騰訊云向量數據庫目前已在騰訊內部產品進行探索應用,如騰訊視頻、QQ瀏覽器、QQ音樂等30多款國民級產品。以騰訊視頻的應用為例,視頻庫中的圖片、音頻、標題文本等內容使用騰訊云向量數據庫,月均完成的檢索和計算量高達200億次,有效滿足了版權保護、原創識別、相似性檢索等場景需求。此外,使用騰訊云向量數據庫后,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%。
“現在向量數據庫是跟著AI的浪潮來走,我們的判斷是向量數據庫本身能力已經比較能夠適應客戶的訴求,但大家對于怎么去用好AI、國內大模型發展的時間點這些都還需要一個時間周期,這是外部的市場環境導致的。隨著AI進一步滲透到各行各業,我相信向量數據庫的發展會來得很快了。”羅云最后表示。
封面圖片來源:視覺中國-VCG41N1369014355
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP