當前最核心的生物醫學大數據問題是解決各種可測量的數據,包括遺傳密碼與表觀表型之間的關系問題。我們知道分子水平的基因組學、蛋白質組學研究產生的數據量不計其數,近年來發展起來的表型組學研究也在不斷積累數據量,我們會逐漸擁有大量的表觀數據。那么這兩大數據如何偶聯?如此規模巨大、系統復雜的分析只能由人工智能來完成。
近段時間,人工智能大模型展現了強大的自然語義處理能力,再次掀起了人工智能的研究熱潮。從圖靈測試開始,機器人能否與人對話就被用作判斷機器是否具有高級別認知智能的依據。大模型的建立,讓人工智能距離通過圖靈測試更近一步。
那么,當前的人工智能還有哪些潛力?在生物醫學領域應如何更進一步發展適用的人工智能?科技日報記者日前對中國科學院院士、中國科學院生物物理研究所研究員陳潤生進行了采訪。
生物信息數據量大、維度廣
記者:距離人類遺傳密碼被破譯已經過了20多年,但似乎仍有很多健康問題難以解決,這是為什么?
陳潤生:過去我們認為生物網絡是“單色”的,或者說是單因素作用的。因為當時我們認為具有生命功能的分子只有蛋白質,遺傳物質經過轉錄、翻譯的過程轉化為蛋白質,進而執行生命活動中的各項功能。
基于這樣的認知,人類遺傳密碼的破譯被理解為解讀“生命天書”。將人類全部30億個堿基序列全部測序完成,就能讀懂這部“生命天書”,提綱挈領地搞清生命活動的運轉體系,從而揭開所有健康的秘密,獲得解決健康問題的手段。
但現在我們發現,生物網絡不是“單色”的,生命活動的調控、抑制、互作中,還有核酸的參與。比如有些核酸序列也會發揮之前被認為屬于蛋白質的功能,調控細胞活動。在承載人類遺傳信息的30億個堿基對中,還有很大一部分雖然我們讀出了序列,但并不知道功能,它們在生命活動中究竟起到什么作用也沒有被研究清楚。大量這樣的區域被稱為遺傳物質的“沙漠區”……因此,當前對人類遺傳密碼的破譯進程只走了解決健康問題過程中的一小步。
記者:既然生命活動這么復雜,是否需要更多的生物信息數據才有希望破解健康難題?目前需要充分利用的有哪些維度的生物信息學數據?
陳潤生:這30年來,人類遺傳密碼的破譯帶動著整個生物醫學領域內廣泛的數據都成為了大數據。
生物信息學最早的研究對象是遺傳密碼,研究任務是對遺傳密碼進行收集、整理、存儲、發布、分析和解釋?,F在數據更廣泛了,生物信息學的研究從20世紀八九十年代創立時的無信息可用,到現在數據呈現海量、多維、異質化特征。比如通過電子病歷大數據挖掘,我們可以得到很多重要信息。中山大學一些研究人員通過電子病歷分析找到的科學結論被發表在了國際著名期刊上。又比如可穿戴設備帶來的生理生化指標,這類信息具備實時、環境情緒相關等特性。這些數據還包括醫院中的影像學數據、臨床病人在治療用藥后的病情變化數據、環境數據、微生物數據、地質數據、化學農藥殘留數據等。所有這些跟健康相關的數據集納起來,構成了非常復雜的健康大數據類型。
可大幅提高生物信息處理能力
記者:如何解析復雜的健康大數據?
陳潤生:健康大數據很復雜,舉例來說,電子病歷寫的是字,處理這樣的信息需要自然語言處理模塊,生理生化指標如腦電、心電等信息需要處理的是波形圖,而影像學要處理圖像,組學要處理符號。對這些性質各異的生物信息進行全面提取處理,就如同秦始皇統一六國不僅要統一文字、語言,還要統一貨幣、度量衡,需要將不同的信息融通,再做解析和決策。
當前最核心的生物醫學大數據問題是解決各種可測量的數據,包括遺傳密碼與表觀表型之間的關系問題。我們知道分子水平的基因組學、蛋白質組學研究產生的數據量不計其數,近年來發展起來的表型組學研究也在不斷積累數據量,我們會逐漸擁有大量的表觀數據。那么這兩大數據如何偶聯?如此規模巨大、系統復雜的分析只能由人工智能來完成。
目前來看,要解析生物醫學大數據,人工智能技術是最適用的手段。
記者:從最初的人工智能到阿爾法狗再到大模型,人工智能發生了哪些變化?當前的大模型在處理生物醫學信息方面有哪些優勢?
陳潤生:20世紀80年代,由于受算力和算法的限制,我們能設計運行的人工智能神經網絡非常簡單,只有幾層。
現在的人工智能神經網絡,比如阿爾法狗、阿爾法折疊等,它的網絡模型架構達到200—300層。當今的計算能力能夠使它們完成更加復雜的任務。
人工智能大模型讓人工智能更進一步。我認為大模型的出現表明人工智能有了多方面、更深刻的進展。第一方面是對自然語言的處理能力發生了根本性的變化。處理人類的自然語言對于計算機來說很困難,突破這個能力后,人工智能可以擁有全局性的知識作為計算的基礎。
第二方面進展是具備了預學習能力。人類之所以能產生智慧,是因為從出生以來一直在不斷積累學習。現在在大模型中,計算機已經可以預學習了,能夠在大量的知識被預先獲得的前提下,再將具體科學問題交給計算機,而不是針對某一個特定問題進行學習。
第三方面進展是可積極促進模態融合。模態融合可以這樣理解,比如人工智能不僅能完成基礎醫學里的結構預測工作,還能完成臨床醫學中的識圖判讀工作,更重要的是可以把這兩個能力融合起來,即人工智能在每個領域都具備專家的知識,又能夠融會貫通、舉一反三。
基于以上三點,我認為發展人工智能作為未來醫學大數據挖掘的工具值得重視。
以人工智能解析生物醫學大數據
記者:很多人在健康出現問題之后的第一反應是“為什么會這樣”,以后人工智能可以解答這樣的問題嗎?
陳潤生:想要回答“為什么會這樣”這個問題涉及到人工智能界的兩個提法:弱人工智能和強人工智能。弱人工智能就像阿爾法狗,能處理特定任務。而強人工智能被認為是有可能制造出來的、真正能推理和解決問題的智能機器。
所以你的問題其實是在問,強人工智能有可能出現嗎?過去我認為是不可能的,但現在看來,我覺得隨著大模型的出現,一些問題正在破冰,強人工智能有了出現的苗頭和希望。當然,現階段人工智能的發展與真正的強人工智能還差得很遠。
當前我們正在進行一些與醫學相關的人工智能研究。比如擴大健康問題相關的參數,抽提面部、表情等特征,也融合基因組、轉錄組、蛋白組、宏基因組、表觀組等全部維度的特征,甚至加入了中醫內容,通過多模態融合建造醫學多模態數據智能整合計算平臺,我們稱之為“靈樞”,并將其用于醫學健康問題的實踐。
記者:網上有人調侃,能寫論文的人工智能卻無法解釋清楚“驢肉火燒”“魚香肉絲”,而生物醫學領域對于人工智能的要求更高,您認為如何讓人工智能具有更嚴謹的運行能力?
陳潤生:如何才能讓人工智能解釋清楚“驢肉火燒”“魚香肉絲”等人類世界的問題,其實是在問如何才能讓人工智能達到強人工智能的水平。
人工智能的智能水平主要由三個因素決定:數據、模型和算力。數據掌握在用戶手中,模型需要不斷研發討論精進,算力是由計算機的能力決定的。
從這三個決定因素入手,我們能夠發現,在數據方面,要解決相應的科學問題,人工智能掌握信息量高、信噪比低的足夠信息就可以了。在算力方面,要依靠計算機科學家不斷從硬件等解決方案入手提高運算能力。
只有模型方面是值得研討的,現在的模型理論夠不夠達到強人工智能的要求,如何讓模型更強?
目前有幾個途徑可以讓模型更強,即增加知識量、增加網絡節點數、增加網絡復雜度。當前國際上幾個大模型的處理數據量已達到萬億參數級別,在此基礎上,我認為需要進一步增加的是網絡復雜度。
我們可以從生理學家的腦生理切片模型中得到啟發。新生兒的腦神經網絡很簡單,復雜度不夠,學不了多少東西。成長讓人的腦神經網絡逐步復雜,進而承載更多內容。因此,我們可以從研究腦發育中獲得啟發,進而形成一個更完善的基礎理論框架,獲得適用的模型,使人工智能走向強人工智能。