30-Apr-2026
大型语言模型在医生的临床推理作业中表现强劲
American Association for the Advancement of Science (AAAS)Peer-Reviewed Publication
据一项基于真实急诊科数据的新研究披露,一款尖端的大型语言模型(LLM)在常见的临床推理作业中表现优于人类医生,这些作业包括急诊室决策、判别可能的诊断以及选择下一步治疗措施。该研究的作者明确表示,其研究并不意味着 AI 系统已做好独立行医的准备,也不意味着医生可在诊断过程中被取代;该研究是迄今为止比较人工智能与医生就范围广泛的临床推理任务上表现的最大规模的研究之一。然而,这些结果确实提出了一些关乎未来如何在临床护理中评估和部署人工智能(AI)工具的紧迫问题。65 年多来,临床诊断中的疑难病例一直是评估医学计算系统的金标准。最近,LLMs 在处理这些复杂病例上的表现已经超越了早期的计算方法。然而,尽管取得了这些进展,但大多数针对 LLMs 的医学研究调查场景较为局限或高度受控,且往往缺乏与人类医生在真实临床推理任务中的表现进行直接对比。基于 LLM 的医学工具的快速进步,这使得如今对其实施更为严格的评估变得势在必行。
Peter Brodeur 和同事在此对一款先进的大型语言模型——OpenAI 的 o1 系列——的诊断与治疗规划能力进行了全面评估;通过一系列临床推理任务,他们将其表现与数百名人类医生及早期的 AI 系统进行了对比。这些评估既涵盖了标准化的临床病例,也包括一项涉及马萨诸塞州一家大型急诊医疗中心中随机抽选的急诊患者的真实研究。Brodeur 等人发现,在所有 6 项实验中,该 LLM 在诊断与治疗推理方面的表现始终能媲美甚至超越人类。值得注意的是,它在急诊科早期分诊中的优势最为显著,因为在这种情况下,临床医生必须在信息极度有限的情况下迅速决策。尽管随着可用的临床数据增多,人类和 AI 的表现均有所提升,但在情况不确定时,该模型展现了独特的优势——它甚至能有效地利用那些零散且非结构化的健康记录数据。据作者披露,LLMs 正迅速逼近人类的临床推理水平,并在某些领域已实现超越;尽管 AI 辅助决策常被视为具有风险,但这些结果表明,若将此类工具与医师的评估协作使用则有望减少诊断差错、延误以及医疗服务获取方面的差异。然而,作者同时也指出了该研究存在的几个重要的局限性。例如,该研究的关注点仅局限于基于文本的推理,而临床实践在很大程度上依靠视听线索,而 AI 目前在这些领域的能力仍显不足。Ashley Hopkins 和 Erik Cornelisse 在一篇相关的《视角》中写道:“在某界定任务上的准确性只是部署就绪的一个维度。临床 AI 还必须在问责制、透明度和持续监测的支持下,提供公平、具成本效益且安全的结果。如果无法充分证明其在有效性、公平性和安全性方面具有稳健表现,许多 AI 系统对临床应用而言仍是不够的。”
- Journal
- Science