Nat. Biomed. Eng. | 面向真实临床实践文本理解的大语言模型基准评测

DrugAI

发布于 2026-06-24 13:22:03

大语言模型（LLMs）正在快速发展，并在医疗健康领域展现出巨大潜力。然而，目前大多数医学基准测试主要基于医学考试题目或PubMed文献文本，难以反映真实临床环境中的复杂语言现象，例如缩写、不规范表达、多源信息混杂以及跨学科临床推理等问题。因此，现有评测体系往往高估了模型在真实医疗场景中的实际能力。

研究人员构建了BRIDGE（Benchmarking Real-world clInical Data for General language modEl evaluation）基准体系，这是目前规模最大的真实临床文本多语言评测平台之一。BRIDGE涵盖来自59个真实临床数据源的87项任务，覆盖9种语言、14个临床专科以及患者诊疗全过程中的多种应用场景。研究进一步对95个主流大语言模型进行了系统评测，包括GPT-4o、Gemini系列、DeepSeek系列、Qwen系列以及多个医学专用模型。

结果显示，不同模型之间存在显著性能差异。开源模型与商业闭源模型之间的差距正在快速缩小，而许多基于旧一代基础模型微调得到的医学专用模型反而落后于最新通用模型。研究还发现，少样本提示（Few-shot Prompting）能够显著提升模型性能，而链式思维推理（Chain-of-Thought）并未在临床文本任务中带来普遍收益。总体而言，目前最先进模型在整个基准上的最高得分仍不足60分，表明真实临床文本理解仍然是一个远未解决的挑战。

近年来，大语言模型已经逐渐进入医疗领域，并被应用于病历生成、临床决策支持、患者教育、疾病管理以及医学研究等多个方向。凭借大规模预训练和指令微调能力，这些模型能够处理复杂医学语言，并在多个标准医学考试中达到甚至超过专业人员水平。

然而，研究人员发现，这类成绩并不一定能够反映模型在真实临床工作中的表现。实际电子病历（Electronic Health Records，EHR）包含大量非标准化语言、专业缩写、语法不完整句子以及复杂时间关系，而这些内容在传统医学考试题目中几乎不存在。

此外，目前大多数医学基准主要基于英语环境构建，缺乏对中文、西班牙语、日语、俄语等多语言医疗环境的覆盖。这种偏倚可能导致模型在全球医疗实践中的表现被高估，并进一步加剧不同国家和地区之间的医疗人工智能不平等问题。

随着GPT、Gemini、DeepSeek、Qwen等模型持续快速迭代，研究人员认为迫切需要一个能够长期更新、覆盖真实临床文本、多语言、多任务和多专科场景的统一评测体系，以客观衡量大语言模型在真实医疗环境中的实际能力。

方法

研究人员首先系统整理全球公开可获得的真实临床文本资源，并依据真实性、公开可访问性以及数据规模等标准筛选数据集。最终构建的BRIDGE基准包含87项任务、141万余条样本，其中约13.8万条作为测试集。任务覆盖命名实体识别、文本分类、事件抽取、问答、摘要生成、语义匹配、标准编码以及自然语言推理等八大任务类别。数据来源包括电子病历、临床病例报告、影像学报告、出院记录以及在线医患对话记录。研究进一步评测95个大语言模型，并采用零样本（Zero-shot）、链式思维（CoT）以及少样本（Few-shot）三种推理策略，共完成24,795次实验和约3950万次模型推理，构建持续更新的公开排行榜。

结果

BRIDGE构建了覆盖真实临床场景的多语言评测体系

研究首先介绍了BRIDGE基准的整体构成。整个评测体系覆盖九种语言，包括英语、中文、西班牙语、日语、德语、俄语、法语、挪威语和葡萄牙语。任务来源不仅包括医院电子病历，还包含真实医患咨询记录和临床病例文档，因此能够更真实地反映实际医疗工作中的语言环境。

在任务类型方面，文本分类、事件抽取和命名实体识别占据主要比例。同时，数据集覆盖心血管、内分泌、药理学、重症医学、肿瘤学、儿科学、神经科学等14个临床专科。

更重要的是，BRIDGE并不仅关注诊断任务，而是覆盖患者从分诊、初诊评估、疾病诊断、治疗干预到出院管理和科研分析的整个诊疗流程。

图1： BRIDGE基准体系总体框架。

当前最强模型仍难以全面理解真实临床文本

研究人员首先比较了95个模型在整体基准上的表现。

在零样本设置下，Gemini-2.5-Flash获得最高综合得分，随后是DeepSeek-R1和GPT-4o。然而，即使最优模型，其总体得分仍不足45分。

采用链式思维推理后，大部分模型并未获得明显改善，部分模型甚至出现性能下降。相比之下，少样本提示带来了显著提升。Gemini-1.5-Pro在Few-shot条件下达到最高综合得分55.5分，成为排行榜第一名。

尽管如此，即使采用最佳推理策略，目前所有模型距离理想临床应用水平仍有明显差距。这表明真实世界临床文本理解远比医学考试问答更加复杂。

研究人员认为，这一结果揭示了当前大语言模型在医疗领域面临的重要瓶颈：虽然模型已经掌握大量医学知识，但对于真实临床语言中的噪声信息、隐含关系和复杂上下文仍缺乏充分理解能力。

图2： BRIDGE数据集构成与任务分布。

开源模型快速逼近商业闭源模型

研究进一步分析不同类型模型之间的竞争格局。结果显示，Gemini和GPT系列仍保持整体领先地位，但开源模型正在快速缩小差距。DeepSeek-R1、Qwen3以及Athene等开源模型已经超越部分商业闭源系统。

特别是在70B至80B参数规模区间，Qwen3-Next-80B、Qwen2.5-72B和Athene-V2等模型已经表现出极强竞争力。

研究同时发现，模型规模仍然是影响性能的重要因素。无论在DeepSeek、Qwen还是Llama家族中，更大参数规模通常对应更高性能，这进一步验证了大模型扩展规律在医学场景中的有效性。

与此同时，新一代推理模型展现出明显优势。具有显式推理能力的模型通常产生更长的推理链，并在临床任务中获得更高准确率。

图3：不同大语言模型家族的性能比较。

医学专用模型并未普遍优于通用模型

研究特别关注了医学专用模型的表现。理论上，经过医学数据进一步训练的模型应当优于通用模型。然而结果并不完全符合这一预期。

虽然MedGemma、HuatuoGPT等模型在部分任务上表现突出，但大多数医学专用模型并未超越其对应的通用基础模型。例如多个基于Llama和Qwen架构构建的医学模型，其整体得分反而低于原始通用版本。

研究人员认为，这可能与基础模型本身的快速进化有关。许多医学模型建立在较旧版本基础模型之上，而最新通用模型已经在预训练数据规模、推理能力和指令遵循能力方面取得巨大提升，因此即使未经专门医学微调，也能够获得更强的综合表现。

这一结果表明，未来医学人工智能的发展可能更加依赖高质量基础模型，而不仅仅依赖领域微调。

Few-shot是最有效的推理策略

研究进一步比较了不同提示策略对模型性能的影响。结果显示，在95个模型中，有91个模型在Few-shot条件下获得性能提升。其中三分之二模型的提升幅度超过20%。

即使对于表现最好的模型，Few-shot依然能够带来明显收益。例如Gemini-1.5-Pro提升超过11分，而DeepSeek-R1也提升了约7分。相比之下，链式思维推理仅对少数模型产生正面影响，大多数模型并未从中获益。

研究人员认为，真实临床文本任务往往依赖复杂定义和具体上下文。少量示例能够帮助模型准确理解任务要求，而简单要求模型进行逐步推理并不能有效解决问题。

图4：不同推理策略对模型性能的影响。

不同语言与临床专科存在显著性能差异

研究最后分析了模型在不同语言和不同临床场景中的表现。

总体来看，英语任务表现最好，而其他语言普遍存在性能下降现象。即使是完全对应翻译的数据集，模型在非英语版本中的准确率通常也明显低于英语版本。

在多语言能力方面，Qwen系列模型表现尤为突出，在多种语言任务中均位列前列，体现出较强的跨语言泛化能力。

从临床专科角度来看，诊断和预后相关任务通常更容易完成，因为这些任务多属于结构化分类问题。而涉及信息抽取、病历摘要生成和复杂关系识别的任务则更加困难。

研究同时发现，不同模型在专科领域各有优势。例如Gemini系列在神经病学、呼吸病学和药理学任务中表现突出，而GPT-4o在心血管疾病相关任务中优势明显。

这些结果说明，目前尚不存在能够在所有语言、所有专科和所有任务类型中全面领先的“全能型”医学大语言模型。

图5：大语言模型在不同语言、临床专科和诊疗阶段中的性能分析。

讨论

本研究构建了目前规模最大、覆盖最全面的真实临床文本大语言模型评测体系之一，为医疗人工智能领域提供了重要基础设施。

研究结果揭示出一个值得关注的现象：虽然大语言模型在医学考试和文献问答任务中已经达到较高水平，但在真实临床文本环境中仍存在显著能力缺口。当前最优模型在整个BRIDGE基准中的最高得分仅为55.5分，说明真实医疗语言理解仍远未达到成熟阶段。

研究同时表明，开源模型正在快速追赶商业闭源模型。DeepSeek和Qwen等开源体系已经能够在部分场景下与GPT和Gemini竞争，这意味着未来医疗AI的发展将更加开放和普惠。

另一个重要发现是，医学专用模型并不天然优于通用模型。随着基础模型能力持续增强，未来医疗领域可能更加依赖高质量通用模型与针对性临床适配，而非单纯构建独立医学模型。

研究人员指出，多语言能力、复杂信息抽取能力以及真实病历生成能力仍然是当前模型最主要的短板。未来需要构建更多来自真实医疗系统的数据资源，同时加强非英语医疗语料建设，以提高模型在全球医疗环境中的公平性和泛化能力。

总体而言，BRIDGE不仅为评估医疗大语言模型提供了统一标准，也揭示了当前模型距离真正临床级应用仍存在的重要差距，为下一代医疗人工智能系统的发展提供了明确方向。

整理 | DrugOne团队

参考资料

Wu, J., Gu, B., Zhou, R. et al. BRIDGE: benchmarking large language models for understanding real-world clinical practice texts. Nat. Biomed. Eng (2026).

https://doi.org/10.1038/s41551-026-01719-2