​(醫與藥)理論知識不輸專家——AI為何仍不能替代醫生 褚怡

 頭痛是不是腦梗的前兆?咳嗽要不要拍個片子?體檢報告上的指標異常意味着什麼?在去醫院之前,越來越多人願意先把健康問題拋給人工智能(AI)。輸入症狀、上傳報告,幾秒鐘後,一份看似專業、條理清晰的分析便出現在屏幕上。對不少人來説,AI正在成為「24小時在線」的醫學諮詢窗口。但這真的意味着AI會看病嗎?

 標準化測試的「高分選手」

 德國馬爾堡大學等機構參與的團隊近日發佈的一項研究顯示,在針對急性腎損傷的標準化知識測試中,多款AI大語言模型平均得分高於接受測試的醫學專業人員。

 研究選取了13個公眾可使用的大語言模型,並將其與123名志願者的表現進行比較。志願者是2025年德國內科學會年會參會人員,其中包括內科執業醫生。

 測試採用同一套急性腎損傷知識問卷,包含兩個模擬病例和15道選擇題。結果顯示,接受測試的大語言模型平均答對約90%的題目,多個模型達到滿分;志願者答題正確率約48.7%,且人類答題時間明顯長於大語言模型。

 研究人員認為,這表明在標準化測試情境中,大語言模型已經能夠較可靠地調取並應用符合指南的相關醫學知識,具有為臨牀工作快速提供事實性信息的潛力。

 年初發表於「施普林格-自然出版集團」旗下《Cureus》醫學科學雜誌的一項研究也顯示,一些大語言模型在標準化醫師資格測試中的表現可比肩專業人員。研究人員選取美國全國醫學考試委員會題庫中的105道選擇題,對GPT-4 Turbo模型進行測試,其正確率高達90.99%。

 臨牀過程的「推理短板」

 標準化測試中的高分,並不意味着AI具備真實臨牀診療所需的判斷力。美國麻省總醫院布里格姆醫療中心等機構研究人員近日在《美國醫學會雜誌·網絡開放》上發表研究説,大語言模型在臨牀推理方面的能力仍然不足,在相關數據收集齊全情況下,這些模型通常能給出較準確的最終診斷,但在病例早期、信息仍然匱乏時,它們往往不具備鑑別診斷的能力。

 為還原真實臨牀過程,研究人員採取分步輸入方式,評估了21個大語言模型對29個標準化臨牀案例的診斷情況。研究人員先輸入患者年齡、性別和症狀等基礎信息,再補充體格檢查和實驗室結果。模型每個階段表現由醫學專業學生進行評估,並據此計算得分。

 結果顯示,所有受測試模型在超過80%的情景下都未能在病情尚未明確、信息仍不完整時給出恰當的鑑別診斷,即未能準確判斷最可能的病因或排除嚴重疾病,並據此為下一步檢查和排查提供可靠方向。

 「鑑別診斷是臨牀推理的核心,也是目前AI尚無法複製的『醫學藝術』的基礎。」研究論文通訊作者馬克·蘇奇説,現階段AI在臨牀醫學中的潛力,在於其能夠輔助而非取代醫生的推理過程。

 哈佛大學醫學院和斯坦福大學等機構研究人員年初在《自然-醫學》雜誌發表的一項研究也顯示,大語言模型在標準化醫學考試中表現優異,但在基於醫患對話記錄進行診斷時明顯吃力。

 研究論文通訊作者、哈佛大學醫學院副教授普拉納夫·拉傑普爾卡爾説,醫療對話具有動態性,需要在恰當時機提出恰當問題,將零散信息整合起來,並根據症狀推理,這種獨特挑戰遠非答題可比。「當場景從標準化測試轉向自然對話時,即使是最先進的AI模型,診斷準確性也會顯著下降。」

 醫生主導下的人機協作

 既然AI還無法獨立診療,它應當以何種身份進入醫療實踐?在2026年德國內科學會年會上,德國杜伊斯堡-埃森大學人工智能醫學研究所所長延斯·克萊西克説,隨着AI的發展,醫生與計算機的協作正在加強。數字系統不再只是提供支持,而是通過病例記錄、協調流程等方式主動地介入醫療過程,「這將從根本上改變醫療服務」。他認為,要讓AI真正發揮潛力,前提是高質量、結構化且可互操作的數據,以及足夠可靠的技術基礎設施。

 但醫生的主體責任並未因此削弱。克萊西克強調,人的因素仍至關重要,仍需要由具備醫學專業能力、能夠理解並合理使用AI技術的醫生來推動和把關。

 在醫生主導下由人機協作開展醫療服務的效果已得到研究支持。斯坦福大學等機構研究人員近期在《自然合作期刊-數字醫學》雜誌上發表的一項隨機對照試驗顯示,在經過設計的人機協作流程中,醫生診斷準確性可由傳統資源條件下的75%提高至80%以上。

 專家強調,推動AI技術融入臨牀診療的同時須警惕伴隨風險。美國密蘇里大學醫學院副教授法里斯·阿拉赫達卜認為,經驗豐富的臨牀醫生通常能夠識別AI提供的錯誤建議,而醫學學生和年輕醫生往往缺乏相應的判斷力,難以識別那些細微卻可能致命的錯誤。

 阿拉赫達卜指出,更隱蔽的風險在於,過度使用AI可能削弱醫生的批判性思維。醫生可能會在不知不覺中把推理過程「外包」給AI。模型給出的答案越流暢、越完整、越像是正確的,使用者就越可能放棄獨立檢索信息、批判性思考及知識整合。久而久之,那些本應持續訓練的能力將逐漸退化。◇