每日經濟新聞 2024-09-13 22:55:44
◎醫師邳靖陶模擬了一個復雜的臨床場景,大模型給出的治療方案和預想的“標準答案”有所出入。而當邳靖陶用“標準答案”去匹配臨床指南時,讓他印象深刻的結果出現了:是自己的診療思路存在盲區。
每經記者 林姿辰 每經編輯 張海妮
距離谷歌大模型(Med-PaLM 2)拿下美國醫學執照考試已經快兩年了,人工智能(AI)夠資格成為臨床醫生的“假想敵”了嗎?
今年7月,一篇發表于Nature Medicine的論文顯示,即使是目前最先進的大語言模型(LLM)也無法為所有患者做出準確診斷,且診斷正確率(73%)明顯差于人類醫生(89%);在極端情況(膽囊炎診斷)下,LLM的正確率僅為13%。
但對于北京清華長庚醫院神經中心醫師邳靖陶來說,他今年剛被AI“上了一課”。8月下旬,邳靖陶參與的靈犀醫學腦血管病專病大模型正式發布,該模型由其所在醫院的神經中心武劍教授團隊主導研發,是國內首個基于專病的醫學人工智能模型。
“大模型的能力說強也強,說弱也弱,我們不能讓它天馬行空地自由發揮。”邳靖陶表示,專病大模型與ChatGPT的最大不同,是要將AI杜撰的似是而非的診療建議扼殺在搖籃里,避免災難性后果。
作為國內四大慢病之一,腦血管病的首次發病者約有2/3是60歲以上的老年人,其具有“高發病率、高患病率、高死亡率、高復發率”的特點。而截至2021年,我國65歲以上的老年人口已經超過2億人,腦血管病醫生短缺、水平參差不齊的問題尤為突出。
“基層醫院不缺全科醫生,但缺??茖<一驅2<?,這就是大模型要解決的問題。”邳靖陶介紹,腦血管病專病大模型是醫療機構與科技企業的合作產物。具體來說,新華三集團提供技術人員、AI算法和算力,北京清華長庚醫院和清華大學提供大數據和臨床需求,共同打造一款面向臨床醫生的輔助診斷工具。
武劍教授曾表示,醫學人工智能在緩解醫療資源緊張和提升醫療服務水平方面,具有巨大的潛力和優勢。其核心在于對海量健康數據的深度挖掘和智能分析,這能夠大幅提升臨床診斷和治療的準確性與效率。
目前,這個大模型的核心功能是分析和提取病歷中的關鍵信息,并與臨床知識庫相匹配,最終提供符合臨床指南的標準化治療建議。
一方面,臨床醫生可以輸入脫敏(不包括患者個人信息)的臨床病程信息,由大模型生成最終的治療方案。期間,如果大模型察覺到病程信息存在疏漏,會提醒醫生及時補充,保證病歷記錄的標準化。
另一方面,臨床醫生也可以輸入患者主訴(如主要癥狀和持續時間等信息)等簡單信息,大模型將通過選擇性交互引導問診方向,根據醫生點擊的選項,逐步完善臨床診療過程,提升醫生的循證能力。
在邳靖陶看來,與ChatGPT等通用大模型相比,專病大模型的專業性體現在思維鏈和知識庫兩方面。以腦血管病專病大模型為例,其數據來源包括兩大部分:一部分是經過脫敏處理的臨床資料,涉及疾病的特定特征,發病情況以及診療過程等綜合信息。另一部分是公開獲取的臨床指南、大量神經病學和神經科學的教科書和參考書籍,這些構成了數據庫的核心內容。值得注意的是,大模型并不能直接接收這些知識,而是需要經臨床醫生和工科團隊之手,將臨床指南的框架和重點內容重新整理,轉化為計算機能夠理解的語言和流程后,再輸給大模型。
“如果不加限制地直接投喂,大模型會發散到其他方面,生成一些新的理解。但臨床指南已經是最高級別的標準化診療推薦,在此基礎上的任何修改都是錯誤的,也不是我們想要的。”邳靖陶告訴記者,想讓大模型“聽話”,除了要投喂計算機能“聽懂”的知識,更關鍵的是教給它一套臨床醫生的“思維鏈”,并依托這一能力對不同患者的臨床資料進行推理。
例如,一位腦血管病醫生的診療流程大致包括詢問病史,進行體格檢查,考慮輔助檢查,綜合分析后給出準確診斷等環節?;谠\斷結果,醫生會考慮患者的具體病因和其他基礎疾病情況,結合標準化的診療建議,制定規范化的治療方案。
在這個過程中,不同的患者主訴指向不同的詢問方向。但問題是,大模型的思維雖然“發散”,但不具備自主搭建思維鏈的能力,所以需要工科團隊深刻理解臨床診療場景,將醫生的臨床思維轉換為機器可以理解的思維。而這個過程讓臨床醫生和技術團隊,都經歷了交叉學習的歷練。
“Gap(差距)主要是語言交流上的障礙,比如我們不理解思維鏈,他們不理解不同疾病間的關系。但這不會對我們的研究造成實質性影響,只要了解對方領域的基礎知識,就能掃清困難。”邳靖陶說。
邳靖陶透露,目前腦血管病專病大模型正在北京清華長庚醫院神經中心進行臨床驗證。此前,他和同事們曾使用真實病例或模擬復雜臨床場景,對大模型進行過內部測試。這項測試建立在前期簡單測試的基礎之上,旨在評估大模型對不同復雜程度、不同語言風格和不同級別醫生的病歷的理解能力。
其中,最困擾邳靖陶的一個問題是,如果大模型出現了錯誤,怎么保證臨床醫生不受干擾呢?換言之,臨床醫生應該怎么處理自己和大模型之間的關系?
這一矛盾在首次內部測試時就出現了。當時,邳靖陶模擬了一個復雜的臨床場景,大模型給出的治療方案和預想的“標準答案”有所出入。隨后,技術人員介入并回溯了大模型的推理過程,試圖找出可能的錯誤,卻無功而返。
而當邳靖陶用“標準答案”去匹配臨床指南時,讓他印象深刻的結果出現了:是自己的診療思路存在盲區。
“一開始這個模型設計出來,到底能不能用于臨床,能不能起到提升和改善(診療效率)的作用,其實我心里也沒有底。但是這件事兒之后,給了我特別大的底氣。”邳靖陶總結這次經歷,發現患者的臨床癥狀是一個綜合結果。例如,患者可能因為神經系統問題住院,但心血管、腎臟、肝臟狀況也在發生變化。盡管醫生接受過規范化的??婆嘤枺\療思維仍可能存在盲點,無法保證每次都能提供全面的診療方案。
另外,臨床指南是不斷更新的,并非所有醫生都能及時更新知識。當醫生的知識更新滯后時,大模型可以幫助彌補這些紕漏。
不過,閱讀指南并做出判斷,仍是臨床醫生不能丟棄的基本功。邳靖陶表示,如果醫生發現大模型提供的診療方案與自己的判斷不符,不應簡單地接受或拒絕,而應深入探究原因。這一思考過程有助于醫生提高臨床診療能力,是大模型作為臨床輔助診斷工具的終極愿景。畢竟,雖然大模型可以提供結論,但對診療過程負責的仍是臨床醫生本人。
2023年7月,谷歌Research和DeepMind共同打造的全球首個全科醫療大模型Med-PaLM M正式發布。資料顯示,這個大模型具備臨床語言、影像和基因組學的理解能力,用于臨床指日可待。
而根據《2023醫療健康AI大模型行業研究報告》,截至2023年10月,國內累計公開的大模型數量達到238個,其中,醫療大模型近50個,涉及患者問診、醫生助手、藥物研發、健康科普等多個領域。據邳靖陶觀察,許多醫療大模型的開發從“全科”出發,直接構建一個涵蓋所有專科的大型全科模型,供用戶咨詢各種疾病。
但在參與構建腦血管病專病大模型后,武劍教授團隊對這一模式表示懷疑。他們發現,把一種疾病的臨床指南梳理清楚頗具難度,打造對應的思維鏈也耗時耗力,短期內很難用同樣的方法訓練出全科模型。換言之,目前的全科大模型能夠做到醫學科普,但很難在特定??祁I域提供有效的臨床指導。因此,武劍教授團隊的研發思路是以專病為起點,再走向全科。
“如果針對腦血管病的專病大模型走通了,我們可以把成功經驗復制到其他神經系統疾病上;如果神經系統疾病覆蓋全面了,就成了??拼竽P?;神經科的經驗再復制到其他科,就會形成一個真正的全科醫療大模型。”邳靖陶表示,在武劍教授看來,國內發病人數越多、疾病負擔越大的疾病,其專病大模型的臨床需求和研發空間就會越大,例如國家發病率最高的四大慢病——高血壓、糖尿病、冠心病、腦血管病都有非常廣闊的大模型開發空間。
而在腦血管病專病大模型的發布會上,武劍教授已經通過招募令的形式,呼吁全國神經系統疾病領域的專家,以及人工智能領域的專業人士攜手把握創新技術的改革可能,改善臨床診療現狀。他曾表示,如果能打破學術壁壘,醫療大模型的重復性工作是完全可以避免的。
“這不是我們一個人能做的事情。”邳靖陶說。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP