每日經濟新聞 2022-09-23 18:52:51
在交大安泰EMBA20周年暨安泰視界年度峰會上,中國科學院院士、上海交通大學化學化工學院院長樊春海給我們講述了一個關于用DNA存儲海量數據的神奇故事,描繪了一個生物技術與信息技術交融發展的美好未來。
每經記者 梁宏亮 每經編輯 冷雪婷
你還記得嗎?
1994年,比爾蓋茨坐在33萬紙上,對全世界發布,我們現在有了“光盤”。一張光盤能夠記錄的內容,也就33萬張紙,這在當時來講應該是非常具有震撼性的廣告效應,也就是我們電子存儲是具有如此強大的能力。
你發現了嗎?
身處在信息爆炸的時代,人類每時每刻都在產生著海量數據信息。為了存儲它們,我們現在到處都在建設數據中心。這些數據中心要在靠近山邊、水邊的地方,占用了大量的土地和能源。
你會相信嗎?
未來有一天,我們有可能拿著一管DNA說:“看,我們這里面存儲著全世界的所有數據!”
交大安泰EMBA20周年之際,每日經濟新聞聯合上海交通大學安泰經濟與管理學院,聯合推出“我的商學之路·我的遠見”系列策劃。
在交大安泰EMBA20周年暨安泰視界年度峰會上,中國科學院院士、上海交通大學化學化工學院院長樊春海給我們講述了一個關于用DNA存儲海量數據的神奇故事,描繪了一個生物技術與信息技術交融發展的美好未來。
數據存儲需要一場“綠色革命”
從原始人的結繩記事,到造紙術,再到電子信息時代的數據存儲,信息存儲方式的變革,從一個角度反映了人類社會的文明發展史。
信息時代來臨時,我們曾相信:電子信息來存儲,似乎解決了所有存儲問題。然而,當我們真正進入一個數據爆炸的時代,我們逐漸發現:僅憑電子信息來存儲數據,滿足不了我們的需求了。
樊春海院士告訴了我們一組數據:2020年全世界的數據是44個ZB(440萬億億字節)。“把這些數據存下來,光耗的電就是一個三峽大壩所產生的電。這個數據還在不斷增長,到2025年預計是175ZB,而且里面80%-90%是很少被調用的冷數據。”
這些所謂冷數據,就是像圖書館的圖書一樣,我們需要把它存在那兒,不能讓它毀滅??墒?,日常工作生活中我們又很少去用它,一年可能都用不上一次。存儲它們不僅需要耗能、占地,而且由于數據電子存儲的壽命只有十年到幾十年,時間到了就需要重新更新迭代一次。
所以,在這種情境下,信息存儲越來越成為一個重大的國家戰略級的需求。不僅存儲消耗能源巨大,傳輸也越來越成為一個問題。
“1969年阿波羅登月計劃的時候,當時存儲介質是紙,也就是1人高這么多的數據,”樊春海院士舉例對比:“到2019年,我們可能都知道人類第一次觀察到了黑洞,把黑洞的圖片傳回來,存儲這些數據的硬盤加起來有半噸重,沒有辦法通過網絡來傳輸,只能通過飛機來運輸。”
也正因如此,現有基于硅的存儲方式,不僅存在高成本、高能耗、壽命短的問題,相對來說遷移起來也很麻煩?,F有的數據存儲架構,越來越難以滿足數據日益爆發性增長的趨勢。這時候,迫切需要一場“綠色革命”。
基因測序從理想變為現實
在人類不斷生產出海量信息的同時,我們對于生命的理解也更加深刻。在過往幾十年里,人類探索生命奧秘最重要突破之一,就是對DNA的更深入理解。
“DNA就是我們生命的密碼。我們知道DNA由4種堿基組成,遵循非常簡單的配對規則,我們有時候會稱為叫華生-克里克配對原則。就是4個堿基分成兩組,A一定是跟T配對,G一定是跟C配對。”
樊春海院士這樣科普到:“在我們細胞里,每時每刻都有這樣一個的過程:DNA雙列進入到聚合酶的蛋白質的孔洞里,就像一個復印機一樣,可以說是一個最精確的自然界產生的納米復印機。當DNA復制達到一定量后,細胞開始分裂,一個細胞分成兩個細胞,兩個細胞分成四個細胞,逐漸變成組織、器官,到植物、動物、人……這就是我們所說的生物學遺傳分子機制。”
大家對上世紀末的人類基因組計劃耳熟能詳。人類基因組計劃的目的,是把我們的遺傳物質DNA序列測定下來。什么叫測定序列?就是把ATGC4個字母排列組合給確定下來。
經過幾代全世界科學家的努力,這終于變成了一個現實。更重要的是,當時測一個人的基因,要花幾十億美元。而現在對于全世界最強的測序公司來說,只要一天時間,花費一兩千塊錢的成本,就可以把一個人的基因檢測出來?,F在,全世界基因測序的市場規模已經達到100多億美元。
不僅如此,我們還可以把古人類、古生物的基因組序列測出來。比如我們通過檢測70萬年前野馬化石的基因組信息,了解70萬年前的野馬有哪些生物學特性。
DNA如何存儲數據信息?
虛擬世界、計算世界或者說現在的元宇宙,它的背后是兩個數字——1和0在跳動。而在我們生物學生命的世界里,實際上背后是ATGC這4個字母在跳動。人類基因組計劃所測出來的一本“天書”,實際上就是4個字母的排列。
從這個意義上講,或者說我們從信息論的角度來看,實際上生命世界跟虛擬世界,可以說是等價的,無非一個是二進制,一個是四進制。也就是說,DNA分子就是這樣一些由ATGC4個字母組成的,可以編碼的分子信息材料。
既然DNA里面的ATGC是四進制,計算機里面就是二進制1和0,兩者在信息上等價的。那么,是不是可以用DNA來存儲計算機的信息呢?
樊春海院士介紹到,DNA存儲無非就是把數據1和0的二進制變成ATGC四進制的編碼過程。通過一系列的生化反應,把數據給存下來、讀出來,再通過數據解碼,變成1和0,跟計算機系統對接起來。
“1988年,有科學家證明DNA可以用來存儲信息,但是在當時并沒有引起很多人的關注,后面有一系列的進展,包括哈佛大學的研究表明DNA可以用來存儲一本書,在科學界都有一定的影響,但是沒有引起社會上的震動。”
樊春海院士談到,因為在當時,電子存儲是足夠用的,大家并不需要這樣一個聽起來很突破性、很怪異的方法來存儲。但隨著信息爆炸時代的來臨,電子存儲的瓶頸越來越明顯。“于是,用DNA來存儲,這件聽起來比較怪的事情,實際上已經受到了國內外的普遍重視。”
據樊春海院士介紹,在科學雜志《Science》提到的未來人類的125個科學問題中,關于信息科學里面4個問題其中之一,就是DNA能否用作信息存儲的介質。而在我們國家的“十四五”科技規劃,就已經把它列入需要加快布局的幾個前沿技術之一。
IT與BT交融的世紀來臨
那么,用DNA來存儲數據,將生物材料用到信息技術里,究竟會帶來怎樣的變革?
“推算一下可以知道,通過50克DNA,可以存下1千萬盤硬盤的信息??梢酝ㄟ^DNA存儲,把數據存儲的容量極限提升7個數量級,”樊春海院士列了一組數據:“這樣推算下來,全世界440萬億的字節,只要200公斤DNA就可以存下來,這就解決了大問題。”
也就是說,DNA存儲帶來了一種密度高、能耗非常低、壽命非常長的存儲模式。壽命能夠長到什么程度?“類似于剛才所說的70萬年前的野馬化石DNA信息,不僅可以存百年、萬年,甚至有可能存到幾十萬年、百萬年。相對于硅基電子存儲只能存幾十年來說,有著巨大的進步。”他說。
“2019年我們國家信息存儲的市值將近5000億元,預計到2025年,我們國家將成為全世界最大的數據城。”在樊春海院士看來,來自醫療、金融、互聯網等等各行各業大量的數據,都有可能成為供DNA來存儲的一些需求。
“DNA信息存儲應該說目前還在起步階段。”據他預測,預期到2024年,將有30%的數字業務有可能是用DNA存儲來實現,從而解決現在指數級增長的數據存儲問題。“我們上海交通大學成立了DNA存儲研究中心,希望在這個過程當中,能夠發揮獨特的作用。”
據樊春海院士介紹,DNA數據存儲是典型的信息技術和生物技術交融的產業,其中不僅包含有信息、大數據和人工智能技術,也包括合成生物學、基因測序等生物學技術。只有技術的交融,才有可能產生這樣一個偉大的事情。
“在上個世紀,我們經常會聽到這樣的爭論——21世紀到底是IT(信息技術)的世紀還是BT(生物技術)的世紀?現在的證據越來越多證明,21世紀可能是生物技術和信息技術交叉融合的世紀。”樊春海院士說。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP