華僑報

（醫與藥）理論知識不輸專家——AI為何仍不能替代醫生褚怡

2026-06-08 03:30:00

　頭痛是不是腦梗的前兆？咳嗽要不要拍個片子？體檢報告上的指標異常意味着什麼？在去醫院之前，越來越多人願意先把健康問題拋給人工智能（AI）。輸入症狀、上傳報告，幾秒鐘後，一份看似專業、條理清晰的分析便出現在屏幕上。對不少人來説，AI正在成為「24小時在線」的醫學諮詢窗口。但這真的意味着AI會看病嗎？

　標準化測試的「高分選手」

　德國馬爾堡大學等機構參與的團隊近日發佈的一項研究顯示，在針對急性腎損傷的標準化知識測試中，多款AI大語言模型平均得分高於接受測試的醫學專業人員。

　研究選取了13個公眾可使用的大語言模型，並將其與123名志願者的表現進行比較。志願者是2025年德國內科學會年會參會人員，其中包括內科執業醫生。

　測試採用同一套急性腎損傷知識問卷，包含兩個模擬病例和15道選擇題。結果顯示，接受測試的大語言模型平均答對約90%的題目，多個模型達到滿分；志願者答題正確率約48.7%，且人類答題時間明顯長於大語言模型。

　研究人員認為，這表明在標準化測試情境中，大語言模型已經能夠較可靠地調取並應用符合指南的相關醫學知識，具有為臨牀工作快速提供事實性信息的潛力。

　年初發表於「施普林格-自然出版集團」旗下《Cureus》醫學科學雜誌的一項研究也顯示，一些大語言模型在標準化醫師資格測試中的表現可比肩專業人員。研究人員選取美國全國醫學考試委員會題庫中的105道選擇題，對GPT-4 Turbo模型進行測試，其正確率高達90.99%。

　臨牀過程的「推理短板」

　標準化測試中的高分，並不意味着AI具備真實臨牀診療所需的判斷力。美國麻省總醫院布里格姆醫療中心等機構研究人員近日在《美國醫學會雜誌·網絡開放》上發表研究説，大語言模型在臨牀推理方面的能力仍然不足，在相關數據收集齊全情況下，這些模型通常能給出較準確的最終診斷，但在病例早期、信息仍然匱乏時，它們往往不具備鑑別診斷的能力。

　為還原真實臨牀過程，研究人員採取分步輸入方式，評估了21個大語言模型對29個標準化臨牀案例的診斷情況。研究人員先輸入患者年齡、性別和症狀等基礎信息，再補充體格檢查和實驗室結果。模型每個階段表現由醫學專業學生進行評估，並據此計算得分。

　結果顯示，所有受測試模型在超過80%的情景下都未能在病情尚未明確、信息仍不完整時給出恰當的鑑別診斷，即未能準確判斷最可能的病因或排除嚴重疾病，並據此為下一步檢查和排查提供可靠方向。

　「鑑別診斷是臨牀推理的核心，也是目前AI尚無法複製的『醫學藝術』的基礎。」研究論文通訊作者馬克·蘇奇説，現階段AI在臨牀醫學中的潛力，在於其能夠輔助而非取代醫生的推理過程。

　哈佛大學醫學院和斯坦福大學等機構研究人員年初在《自然-醫學》雜誌發表的一項研究也顯示，大語言模型在標準化醫學考試中表現優異，但在基於醫患對話記錄進行診斷時明顯吃力。

　研究論文通訊作者、哈佛大學醫學院副教授普拉納夫·拉傑普爾卡爾説，醫療對話具有動態性，需要在恰當時機提出恰當問題，將零散信息整合起來，並根據症狀推理，這種獨特挑戰遠非答題可比。「當場景從標準化測試轉向自然對話時，即使是最先進的AI模型，診斷準確性也會顯著下降。」

　醫生主導下的人機協作

　既然AI還無法獨立診療，它應當以何種身份進入醫療實踐？在2026年德國內科學會年會上，德國杜伊斯堡－埃森大學人工智能醫學研究所所長延斯·克萊西克説，隨着AI的發展，醫生與計算機的協作正在加強。數字系統不再只是提供支持，而是通過病例記錄、協調流程等方式主動地介入醫療過程，「這將從根本上改變醫療服務」。他認為，要讓AI真正發揮潛力，前提是高質量、結構化且可互操作的數據，以及足夠可靠的技術基礎設施。

　但醫生的主體責任並未因此削弱。克萊西克強調，人的因素仍至關重要，仍需要由具備醫學專業能力、能夠理解並合理使用AI技術的醫生來推動和把關。

　在醫生主導下由人機協作開展醫療服務的效果已得到研究支持。斯坦福大學等機構研究人員近期在《自然合作期刊-數字醫學》雜誌上發表的一項隨機對照試驗顯示，在經過設計的人機協作流程中，醫生診斷準確性可由傳統資源條件下的75%提高至80%以上。

　專家強調，推動AI技術融入臨牀診療的同時須警惕伴隨風險。美國密蘇里大學醫學院副教授法里斯·阿拉赫達卜認為，經驗豐富的臨牀醫生通常能夠識別AI提供的錯誤建議，而醫學學生和年輕醫生往往缺乏相應的判斷力，難以識別那些細微卻可能致命的錯誤。

　阿拉赫達卜指出，更隱蔽的風險在於，過度使用AI可能削弱醫生的批判性思維。醫生可能會在不知不覺中把推理過程「外包」給AI。模型給出的答案越流暢、越完整、越像是正確的，使用者就越可能放棄獨立檢索信息、批判性思考及知識整合。久而久之，那些本應持續訓練的能力將逐漸退化。◇