未來將大語言模型應用于醫學可能會成為一種趨勢。在分診問診等臨床咨詢階段,利用模型與患者進行交互,收集到完整、準確的信息并形成初步意見,再將其交給專業醫生進行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問題帶來的誤診和漏診。
你是否想過,未來給你問診的可能是人工智能?據報道,用于尋醫問診的大語言模型在國內已經出現,醫檢行業等垂直領域也正加速布局對應的大語言模型。不僅如此,《自然》雜志近日還發表了一篇論文,展示了一個用于評估大語言模型在醫學問題上整體表現水平的基準。
那么,將大語言模型用于尋醫問診是否有可能成為一種趨勢?其技術原理是什么,又該如何對其進行監管和評估?帶著這些問題,記者采訪了相關專家。
國內企業紛紛入局醫檢大語言模型
ChatGPT的發布,掀起了各廠商研發大語言模型的熱潮。“此前人工智能應用于醫學的進展速度并不算快,能否借助這一輪大語言模型發展熱潮,把對專業性、精準度要求極高的AI醫療推向發展的快車道,成了大家現在關注的焦點?!睆V州金域醫學檢驗集團股份有限公司(以下簡稱金域醫學)數字化運營管理中心算法總監劉斯表示。
國內在“大語言模型+醫學”領域雖起步相對較晚,但也是“八仙過海、各顯神通”。今年5月,互聯網醫院——醫聯率先發布了基于Transformer架構的國內首款醫療大語言模型——MedGPT。而在醫檢領域,金域醫學正聯合華為云等行業巨頭,研發聚焦智能臨床咨詢、檢測項目智能推薦、智能檢測報告生成與解讀等方面的醫檢行業大語言模型。
目前,網絡上也有一些沒有大語言模型加持的尋醫問診機器人。這種機器人與大語言模型加持下的尋醫問診機器人有何不同?
“大語言模型加持下的問診服務將具有更好的柔性。在患者不能用專業術語描述自身癥狀,或者患者的回答并沒有按照預設路徑進行的時候,大語言模型擁有更加靈活的應對能力。”劉斯透露,利用這些特性,他們正在訓練醫檢大模型,并希望借此打造人工智能醫檢咨詢師。
有望減少誤診漏診提供普惠醫療服務
當前,醫檢服務正日益趨向專業化、精準化、個性化。以廣東省新一代人工智能開放創新平臺的承建單位金域醫學為例,其已在醫檢生成式人工智能領域有所布局,目前已建立起標準報告語言規范及高質量專病數據庫,并正利用預訓練模型在醫學文本實體抽取、病理報告結構化等領域開展探索。
受訪專家們一致認為,未來將大語言模型應用于醫學可能會成為一種趨勢。在分診問診等臨床咨詢階段,利用模型與患者進行交互,收集到完整、準確的信息并形成初步意見,再將其交給專業醫生進行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問題帶來的誤診和漏診。這個方案不管是從準確率還是從效率上來看,都具備一定的可行性。
“許多最前沿的醫療知識分散在少數人手里,而大語言模型卻能夠融合頂尖知識,提供更加普惠的醫療知識服務?!弊笫轴t生創始人兼CEO張超說。
上海長海醫院實驗診斷科主任、博士生導師劉善榮也表示,未來若能搜集到大型三甲醫院的醫生對于某些疾病的認知并將其導入大語言模型進行整合、學習,一些醫療資源不充足的地區也有可能享受到高質量的醫療服務。
對齊真實醫療場景需技術倫理雙管齊下
大語言模型或許能提升醫檢行業效率,但在面對真實的尋醫問診場景時,目前的大語言模型仍有其局限性,這主要體現在準確性、一致性和及時性上。
在準確性上,由于模型預訓練時所用的文本范圍不一定囊括所有???,針對疑難雜癥以及罕見疾病的語料也不一定足夠豐富,因此模型在面對較為罕見的場景時,有可能會出現根據它當前掌握的知識強行作答的情況?!霸卺t檢實踐場景中,我們也發現大模型在回答問題的過程中有可能出現幻覺,會將沒有出現在描述里的癥狀納入到考慮范圍中?!眲⑺贡硎?。
在一致性上,若以相同的問題重復多次詢問模型,模型偶爾會出現回答前后不一致的情況。這種隨機性在日常對話或者故事創作中是受歡迎的,但在臨床咨詢場景中是不允許發生的。
在及時性上,大模型受限于訓練語料的時限性,無法直接利用訓練之后才產生的新語料。換言之,新的醫療發現和診療指南等信息難以直接、有效地注入未更新的大模型里。
“與以聊天為‘主業’的ChatGPT相比,在醫療方面,我們需要大語言模型給出盡可能穩定和精確的結論,避免因為模型幻覺或者含糊不清的回答,誤導患者選擇錯誤的診療方案?!眲⑺怪赋?,目前大部分醫療領域的大語言模型會選用知識圖譜進行輔助,圖譜質量在很大程度上會影響其回答質量。
大語言模型要借助什么技術手段解決這些缺陷呢?劉斯認為,除了預訓練過程中需要納入足夠多的醫學專業數據外,在模型設計中,也需要重視它對知識圖譜的利用能力,以及基于圖譜的推理能力。目前看來,完全依賴大模型進行外部不可見的獨立推理過程并直接向醫生輸出結果,這種模式在醫學場景中較難達到足夠高的準確率,也較難獲得醫生的認同?!爸R圖譜+大模型”的技術路徑,可能會是促進大模型在醫學場景落地的更優選擇。
此外,大語言模型在微調階段和測試階段,需要醫學專家的深度介入,依托具有交叉學科背景的研發團隊對模型進行迭代,保障模型的反饋嚴格遵照醫學邏輯;同時,在應用過程中,也需要注重大語言模型本身以及相關知識圖譜的更新頻率,如可借助指令精調乃至重新預訓練等手段將新增的醫學語料納入大語言模型的“知識庫”,以應對模型醫學知識更新不及時的問題。
同時,業內專家也提醒道,要注意對用于醫學領域的大語言模型進行監管和評估。劉斯表示,應在遵循現有生成式人工智能以及人工智能醫用軟件的管理辦法和規章制度,保證數據來源和技術安全、合規、可控的前提下,在大語言模型研發過程中加強與醫學專家團隊的協作,這樣一方面可確保醫學領域的知識有效注入到模型中,另一方面也能使模型輸出的結果與醫生診療結論保持相似或一致。此外,將現階段模型輸出的結果用于診療決策之前,仍需要由醫生來把最后一道關,保障結果的專業性。目前來講,大語言模型僅能作為醫生的助手,而不能替代醫生進行決策。