30-Apr-2026
大規模言語モデルが医師の臨床推論タスクで強力なパフォーマンスを示す
American Association for the Advancement of Science (AAAS)Peer-Reviewed Publication
最先端の大規模言語モデル(LLM)が、救急治療室での判断、妥当と思われる診断の特定、次の管理手順の選択などの一般的な臨床推論タスクにおいて人間の医師よりも優れていたことを、実際の救急科のデータを用いた新たな研究が示している。様々な臨床推論タスクで人工知能(AI)と医師を比較した、これまでで最大規模の研究の1つである本研究の著者らは、この結果はAIシステム単独での診療ができるようになったと示すものでも、診断プロセスから医師を排除できると示すものでもない、と明言している。ただし今回の結果は、今後の臨床診療におけるAIツールの評価と導入について緊急課題を提起するものである。65年以上にわたり、臨床診断の困難な症例は、医療コンピューターシステムを評価する判断基準となってきた。最近、これらの複雑な症例においてLLMが先行のコンピューターアプローチを上回ってきている。だがこうした進歩があるにもかかわらず、LLMについての大半の医学研究は、狭いシナリオあるいは高度に管理されたシナリオしか検討しておらず、実世界の臨床推論タスクにおける人間の医師の能力との直接比較はしていない場合が多い。LLMに基づく医療ツールの急速な進歩に伴い、より厳密な評価が必要になっている。
今回Peter Brodeurらは、高度先進LLM(OpenAIのo1シリーズ)の診断能力と治療計画作成能力を、一連の臨床推論タスクにわたり数百名の医師および旧AIシステムの能力と比較することで包括的に評価した。これらには、標準化された臨床症例と、マサチューセッツ州の主要な救急医療センターで無作為に選択された救急治療室患者に関する実臨床研究の両方が含まれた。Brodeurらによると、6つの実験すべてにわたってLLMモデルは一貫して、診断および管理の推論で人間と同等か人間を上回るパフォーマンスを示した。注目すべきことにLLMの優位性は、医師が最小限の情報で迅速な判断を下さなければならない、救急科での初期段階のトリアージで最も顕著であった。人間とAIのどちらも、利用可能な臨床データが多いほど成績が高かったが、LLMは不確実な条件下において際立った強みを見せ、構造化されていない断片的な医療記録データさえも効果的に使用していた。著者らによると、LLMの臨床推論は人間レベルに急速に近づきつつあり、一部の領域では上回ってもいる。また、AI支援による意思決定はリスクが高いとみなされる場合が多いものの、今回の研究結果は、これらのツールを医師による評価と併用すれば、誤診や診断の遅れ、医療アクセスの格差を減らしうることを示唆している。ただし著者らは、本研究のいくつかの重要な限界についても言及している。例えば、今回の焦点はテキストベースの推論に限られていたが、臨床診療では視覚的・聴覚的な手がかりに依存するところが大きい。これらの領域における現在のAIの能力は依然としてあまり高くない。関連するPerspectiveでAshley HopkinsとErik Cornelisseは、「限定的なタスクにおける正確さは、導入準備の1側面に過ぎない。それだけでなく臨床用AIは、公平で費用対効果が高く安全な成果をもたらすものでなければならず、そのことが説明責任や透明性、継続的なモニタリングによって支持されなければならない」と述べている。「有効性、公平性、安全性が確実に示されない限り、多くのAIシステムは臨床使用には不十分なままである。」
- Journal
- Science