來源:數(shù)據(jù)觀 時間:2020-08-03 13:51:07 作者:
7月29日,以“賦能實體經濟,推動產業(yè)創(chuàng)新——大數(shù)據(jù)與實體經濟融合發(fā)展”為主題的2020“數(shù)博對話”活動成功舉辦。貴州華大生命大數(shù)據(jù)研究院執(zhí)行院長金鑫在本期對話活動中以《基因大數(shù)據(jù)價值與未來》為主題進行了分享。
基因信息與生老病死密切相關
金鑫認為,一方面,人是數(shù)據(jù)的生產者,生活中不管是打車、買東西,還是其他活動,無時無刻都在產生數(shù)據(jù)。另一方面,每個人也是信息的載體,這個信息就是構成生命最基本的基因?;虼嬖谟诿總€細胞里,這是跟每個人都密切相關的東西,但在過去很多年里,它是數(shù)字化程度比較低的一種數(shù)據(jù)類型。
我們每個人都是基因信息的載體,這個載體是承載在細胞里。金鑫介紹:“我們身體里會有多少細胞?有人做過測算,細胞的數(shù)量在50萬億個,如果把我們身體里的細胞平鋪的話,它可以覆蓋1600米的沙灘。每個細胞里有多少DNA?人的基因組序列的長度大約是30億個堿基。地球到太陽之間的距離是一個天文單位,如果把人體里所有細胞的基因序列連起來的話,它的長度通過計算大約是300多個這樣的單位,遠遠超過了目前的旅行者1號(1977年發(fā)出的飛行器,到現(xiàn)在也沒飛到),這里面的信息量可想而知?!?/p>
更多的數(shù)據(jù)帶來更多的發(fā)現(xiàn)。金鑫進一步談到,每個人都有重大的信息量,這些信息跟我們的生老病死是密切相關的,尤其是跟我們密切相關的健康疾病因素,有遺傳的基礎、健康的基礎等。如果我們知道了未來多長時間內有多大的概率會得某種病,那就可以治療或者是防控,或者在早期能發(fā)現(xiàn)它也可以進行合理干預,比如“三高”的控制等。同時,在這個過程中,需要大數(shù)據(jù)去回答問題和消除不確定性,因為如果只研究一個人的信息量,這是不匹配的,如果把他的原始數(shù)據(jù)估出來,一個人的數(shù)據(jù)在今天至少要達到100G,這個人已經被確診為糖尿病或者沒有,這是在海量數(shù)據(jù)中海底撈針。但如果有很多人的數(shù)據(jù),百萬量級的層級里面就能建立聯(lián)系。
上圖是人類將近20年以來所發(fā)現(xiàn)的跟各種各樣人類疾病有關系的基因位置和區(qū)域。金鑫介紹,這張圖上,人類1號染色體一直到22號,還有性染色體,圖上每一個圓圈就代表了一種疾病或者我們所關心的人體的表型。正因為基因跟幾乎任何的疾病都有關系,所以非常希望能更進一步地了解它們深入的聯(lián)系。
基因大數(shù)據(jù)時代來臨
金鑫表示,基因組是非常龐大的序列組合,有時候會發(fā)生更復雜的變化,比如有一段少了,有一段增加了,有一段換了位置,有一段貼到了別的地方......這就使現(xiàn)在的技術逐步地去研究它跟疾病之間的關系。在這個背景下,各個國家都發(fā)現(xiàn)了這中間蘊含的巨大的價值和可能性,如果我們把生命本身解碼,把它跟更多的數(shù)據(jù)連接起來,更多的價值就能連接起來。這個過程中,希望能夠通過大量的數(shù)字化,生命的大數(shù)據(jù)就能產生,去解決怎樣拓寬信息和數(shù)據(jù)來源的問題。
在過去這些年,每一個人的數(shù)據(jù)是單獨來看,它的價值是沒有得到釋放的,所以在這中間有很多關于科學倫理的討論,但現(xiàn)在這個價值正在逐步得到顯現(xiàn)。
金鑫舉例介紹,英國的生物銀行(UK BioBank)共享50萬英國人基因數(shù)據(jù),這50萬人現(xiàn)在都已經有了基因數(shù)據(jù),這個基因信息就逐步開始跟各種各樣類型的數(shù)據(jù)產生聯(lián)系。在這個過程中,做了50萬的基因信息之后嘗到了甜頭,尤其是在過去幾年有大量的數(shù)字化成本,并不是通過英國的科研經費和科技部門,而是來自產業(yè)部門,數(shù)據(jù)價值真正得到使用的部門。有好幾家國際領先的制藥公司投入一定的經費來支持這個項目,把中間的基因數(shù)據(jù)生產出來。尤其到了最近,他們完成了一期之后已經開始啟動第二期,這中間有大量來自產業(yè)界的投入。
為什么產業(yè)界會參與做基因數(shù)據(jù),尤其是制藥企業(yè)。金鑫分析道,開發(fā)一個新藥可能要花十億美金,但只有很低的可能性能成功。如果在開發(fā)的過程中,有來自基因數(shù)據(jù)的支持,這個藥成功的概率就會提高一倍,這中間能夠帶來的收益非??捎^。
金鑫介紹,這中間蘊含著機會,也蘊含著挑戰(zhàn)。美國和英國做了很多,是不是只要大家使用他們的研究成果,繼續(xù)往后做就好了?大家發(fā)現(xiàn)不是這樣的,雖然今天在世界上生活的都同一種人,叫現(xiàn)代人,但是人群和人群之間存在差異,地域與地域之間存在差異,累積起來帶來的預測效果差別是非常大的。有人去做了統(tǒng)計,匯集了到今天為止已經發(fā)表的跟基因和疾病健康相關的所有研究成果,按照這個研究項目看,50%以上是來自于歐洲人群。如果大家把過去所有做了基因信息的人跟這個數(shù)據(jù)庫比對,會發(fā)現(xiàn)將近80%的人是來自歐洲。這給我們非常大的提醒,如果只是依賴于別人完成的成果,很有可能會錯過接下來一波信息革命在健康醫(yī)療產業(yè)里面給我們帶來的機會。
過去幾年,包含華大基因在內的多個國內研究團隊做了很多跟中國人群相關的基本的研究,通過這樣的工作能夠去畫出中國人遺傳基因的圖譜,類似于這樣基本信息的研究,可能對于遺傳病的防控有更好的作用。
基因大數(shù)據(jù)研究的工具突破
“最早做人類基因組計劃的時候,人類科學家做了10年花了30億美金才做了一個人的基因組,到后來我們只需要花三五年時間,在幾個億美金的情況下就可以完成30萬人。到今天,完成一個人的基因組,它的成本已經低于500美金,這個成本還在繼續(xù)下降?!苯瘀蜗M磥沓杀灸芙档?00美金,這樣更多的人才會用到它。
開展基因大數(shù)據(jù)研究,需要工具的支撐。金鑫介紹,以測序技術為代表的組學技術發(fā)展日新月異,現(xiàn)在開發(fā)出了基于基因納米球的技術。
圖中紅色的線是每檢測一個人的基因成本,每一次它都會快速下降,到了今天已經接近幾百美金的水平,未來會在100美金之下;黃色的線是摩爾定理,就是芯片的速度和成本,基因測序成本的下降速度比摩爾定理還要快。
在這個過程中,在2013年以前,全世界只有兩個國家能生產到科研級別、臨床級別的基因測序,就是英國和美國。到2009年,英國這家公司把技術賣給了美國,所以英國也沒有這個能力了。2013年美國進一步研發(fā),到今天為止,世界上還是只有兩個國家、三家公司能做基因測序儀,華大是中國唯一一家。
“從我們開始做基因測序儀的研發(fā),到今天經歷了六七年時間,我們最原始的版本已經迭代了很多基因測序儀,開發(fā)了很多應用,比如地中海貧血基因的變化,到現(xiàn)在最高通量的全世界每天產生7Tb數(shù)據(jù)的基因測序儀已經開發(fā)成熟了,這為我們國家在未來有成功可控的技術奠定了基礎?!苯瘀谓榻B道。
基因本身是一個信息載體,過去做的很多工作都是可以從基因序列里讀出需要的信息,將這個信息跟疾病信息聯(lián)系起來。金鑫表示,DNA本身也可以作為一個載體,我們存DNA只需要保存在干燥穩(wěn)定的環(huán)境里,它就可以長期保存。如果要復制它,可以把這段基因導入到一段細菌里,微生物的生長是指數(shù)級的,很快就可以達到數(shù)量,寫在硬盤或者閃存里可能都不如把它寫在某種生物里,把它一代一代傳下去。我們攜帶信息是不是還有別的意義?是不是真的有所謂的造物主的信息存在?它的信息密度非常高,一個細胞里可以存30億個堿基的信息。有人測算過,如果用一公斤的DNA,如果我們把它用合理的編碼規(guī)則的話可以存下今天全世界所有的數(shù)據(jù),這樣的存儲密度是超過今天所有的技術的,這樣的存儲技術是億萬年進化來的結果。
一個人的基因數(shù)據(jù)有很多,那一個人是不是只做一次基因測序就可以了呢?金鑫表示:“我們的身體、細胞其實是像馬賽克一樣,這幾年新起了一個技術叫單細胞測序,今天可以做到對單個細胞進行精細定位,這在很大程度上提高了我們對于生命信息理解的更清晰的分辨率,給大家?guī)砹烁嗟膶ι睦斫狻N覀兩眢w里的細胞是非常多的,而且有很多我們以前不知道的細胞,比如生物智能到底是怎么回事,到今天依然是無解的。以前研究大腦非常困難的就是它里面這么多細胞這么的不同,我們怎樣去觀測它,我們現(xiàn)在已經啟動了這個項目,對小鼠的腦細胞進行單細胞測序,每一種顏色就是代表了不同的細胞類型,我們有更多數(shù)據(jù)、更多細胞、更大的信息,我們可以去重構和還原小鼠腦細胞的聯(lián)系,這樣我們更好的理解了生物智能,反過來對于人工智能技術會有更大的幫助?!?/p>
釋放基因大數(shù)據(jù)的價值
研究基因大數(shù)據(jù),也離不開社會經濟和健康醫(yī)療發(fā)展,因為生命信息基因數(shù)據(jù)只是整個健康醫(yī)療大數(shù)據(jù)中的一部分,它是非常核心的一部分。
如果把整個健康醫(yī)療數(shù)據(jù)的圖形畫出來,大家會看到未來在把基因數(shù)據(jù)和健康醫(yī)療大數(shù)據(jù)連接起來的時候,這中間會有更多的價值和更多的機會。這里面數(shù)據(jù)的體量層面也可以顯然看到,基因數(shù)據(jù)和影像數(shù)據(jù)是最大最重的。
在價值的實現(xiàn)方面,金鑫還提到,更好地了解基因信息,能更精準更快速的開發(fā)出來新的藥物。除此之外,基因信息在保險業(yè)過中也能發(fā)揮非常多的作用。如果能了解更多的基因信息,對購買保險的人來說,就能預知未來身體健康情況,能對抗更多的風險。反過來,保險公司掌握這些數(shù)據(jù),對核保的條件也能更精準,每個人都能用基因數(shù)據(jù)來做健康管理。
責任編輯:姚治