< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

Jay 2026-06-18 21:46:04 来源：量子位

M4是大脑，百小医是身体

衡宇 Jay 发自凹非寺

量子位 | 公众号 QbitAI

应该不只是我家里的长辈天天抱着AI“看病”吧？

这年头，大家是越来越习惯把症状、化验单、病历丢给AI了。

正所谓春江水暖鸭先知，身处一线的医生们就对这个事情深有体会。越来越多患者带着AI生成的“自我判断结果”去医院问诊，有些医生甚至反馈，门诊里不少人带着同一套AI结论来求证。

患者过度依赖大模型诊断，导致医患沟通成本增加。界面新闻采访的三甲医院医生就非常无奈：

“上午看了30个号，25个病人是带着AI结论来的。”

虽然许多官媒时不时也提醒公众，通用AI用于医疗场景存在明显的不可靠性，但随着AI技术精进、使用人群越来越广泛，AI确实正在进入医疗决策的前置环节。

于是一个分化开始变得明显起来。

一边是通用大模型正在成为健康信息的第一入口，另一边是医疗行业不断强调，通用模型不适合直接承担医疗判断。

所以我们讨论的话题应该再进一步，聚焦在“哪一种AI有资格靠近医疗”？“我们到底需要什么样的医疗AI”？

走向“能被病人托付”的医疗增强大模型M4

落地医疗场景的AI，必须要基于通用大模型做结构性重构与医疗专项增强，方可真正服务医疗。

而百川智能推出的Baichuan-M4，正是在这个方向上的一次回答。

一直以来，百川在这方面的路径清晰，从M1到M4，它始终在推动通用大模型在医疗场景的能力边界。

到了M3阶段，这条路线开始真正收敛成体系，形成了一条清晰的能力基线，从而构筑起由评测领先、范式原创、贴近临床与外部验证四大要素共同支撑的信任体系。

M4在这条基线上的进一步推进。

我们可从最新发布的技术报告中一探究竟。

在最新评测体系中，M4继续保持全球领先。

HealthBench综合得分提升至68.6，Hard任务提升至49.7，幻觉率进一步下降至3.3%。

在更贴近真实临床环境的HealthBench Professional评测中，M4在基础推理（不接外部工具）得分55.1，显著高于GPT-5.5的51.8分。

但如果只看分数，这仍然只是连续优化的结果。

M4真正的变化发生在能力结构上，它开始从“单点问答优化”走向“医疗过程能力重构”。

这一变化，可以拆成四层升级。

会提问，从单轮问诊走向深度诊疗

真实问诊是个持续追问与信息补全的过程。

基于SCAN-bench 2.0体系，M4将训练场景从单次标准化问诊扩展到多轮访视与复杂患者画像，使模型能够在信息不完整的情况下持续推进诊疗路径。

在动态问诊评测SCAN-bench中，M4初诊得分79.0、复诊74.7，均明显领先其他顶尖模型；长上下文临床记忆得分86.9，较上一代M3提升 21.1 分，为同类最高。

在搭载了M4的百川C端产品百小医上，能非常直观地体现这项技能点的重要性。

张先生半夜突然急性脚痛，打开APP后，百小医连续追问了10轮，逐步锁定了痛风风险。

敲黑板，“连续追问10轮”。

不是闲聊，它在通过连续追问补齐病史信息，逐渐缩小风险范围。

模型在多轮对话中会持续追问TA的饮食结构、发作频率、用药历史以及近期指标变化，系统逐步收敛风险判断路径，更接近真实门诊的复诊过程。

会循证，从内容生成走向证据驱动

“有没有依据”是医疗判断的关键。

在循证这一层，M4构建了原子化临床路径体系，将复杂医学指南拆解为1000余个可复用临床决策单元，覆盖200余种常见疾病的完整诊疗流程。

在此基础上，研究团队还引入了更严格的证据锚定机制，使模型输出稳定对齐医学证据。

很多通用模型也会在结论后甩一串文献，但点进去常常对不上——要么引用编号在、内容却是两回事，要么文献本身没错、被引的那段跟结论不沾边。

证据锚定要做的，是让每一句结论都能精确落到原文的具体段落，顺着就能查到出处。

在Baichuan-EBM评测中，循证引用精度达到90.0，显著高于GPT-5.5的54.7。

拥有Harness调度能力，持续提供健康管理服务

如果说问诊解决的是单次决策问题，循证解决的是正确性问题，那么调度与记忆解决的是时间问题。

M4引入了Harness架构。有了这个神经中枢，何时追问、何时检索证据、何时调出既往病史，均由模型自主决定，无需人工逐步指令。

面对文献检索、长病史梳理这类繁重任务，它会拆分成子任务并行处理，让模型专注于整体诊疗路径的判断；而每一步动作，都在实时的安全约束下完成。

它会当场拦下违规的工具调用、越权的数据访问、不合临床规范的操作等不安全的行为。

更重要的是，这套系统不是一次成型，而是在真实诊疗中持续迭代：线上的疑难案例、用户的追问、医生的纠偏，经脱敏与归因后回流，成为模型继续改进的依据。

问诊、记忆、循证由此被编排成一个完整的整体，M4也从一个最强的医疗大脑，成为能独立完成连续诊疗的医疗智能体。

全病程记忆，掌握患者上下文

真实的诊疗，很少在一次问诊里就结束。

一次化验结果、一次用药后的反应、一个新冒出来的症状，都会随病情推进不断改写医生的判断——这意味着，能记住一个人完整的病史，才能给到患者更为准确的建议。

针对这一点，M4推出了“全病程记忆”，打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化，而不必每次从零开始。

在长上下文临床记忆评测中，M4取得86.9分，为同类最高，较上一代M3提升21.1分。

记住一个人完整的病程是精准医疗的前提，好多关键价值都藏在不起眼的随口闲聊里。

先举个比较aha-moment的例子。

提前内测的张强（化名），和父母分居两地。某次家庭群聊天时，老人随口提了一句“最近走一圈就喘”。

基于M4模型的百小医BOT随后结合长期健康记录与既往病史，提醒可能存在早期心功能不全风险。

然后打了波王牌辅助，轻松几段话，就劝服张强妈妈就医了。

换作只记短时对话的通用大模型，根本抓不住这种细碎线索。

在此背景下，百小医这类C端产品形态的价值，开始出现。

张强妈妈最近很容易喘，百小医在参考历史上下文给出健康提醒后，帮助张强说服老人去了医院。

后续的院内检查结果，进一步印证了此次就医决策的必要性。

百小医拿到报告后，还在继续帮助张强管理家人的身体健康。

它把医生之外那95%的诊室外时间无缝衔接了：提醒、记录、追问、预警，并在需要时把人重新推回线下就医。

“主动关心”这项技能点对医疗而言非常重要。

在中国医学科学院肿瘤医院的75个患者群测试中，多个群内在27天里共产生6944条对话，百小医安全性达到99.6%，深度互动率达到60%-73%。

通过如此高频的交互，百小医能沉淀足够多的健康上下文，让M4在后续问诊、提醒和风险识别中更有连续性。

某种程度上，这体现了百川想长期做的事情：

用M4提供专业大脑，用百小医在家庭场景建立长期、连续的医疗关系。

最终的应用形态，便是和真人医生形成“双医模式”：医生负责诊断与治疗决策，AI负责诊室外的长期陪伴、信息整理和风险提醒。

医疗推理能力，保证模型输出稳定性

当然，模型能力才是支撑这一切的基石。

在复杂医疗问题上，M4进一步强化多模态能力。

在多模态能力方面，复杂检验报告和化验单的结构化识别得分0.914，能够较好支持医学影像与结构化报告理解，使模型在复杂信息输入条件下仍保持稳定判断能力。

这一部分能力更多作为补强，保证模型在复杂医疗场景中的稳定性。

整体来看，M4在M3形成的医疗专用基线上，完成了一次系统性的能力重构。

它让医疗AI从“回答问题”走向“参与诊疗过程”，从“单次交互”走向“连续托付”。

作为一家通用大模型公司，百川将旗下最强的模型能力投向了医疗这样高风险、高复杂度的场景。

医疗不是赛道，是一道考题

过去两年，大模型行业其实一直有一个争议：医疗，到底只是大模型的一个应用方向，还是值得单独重做一套模型体系？

如今看来，百川的标签，可能首先是“通用大模型”。

只不过他们选了最难的医疗场景，作为检验这个“通用大模型”的考场。

百小医——这个能和患者深度建联的C端产品，正是这个判断的最佳印证。

它有Chatbot有的一切，但又全栈围绕医疗用途重构。

因为它的出现，一整套专业级医疗模型能力，第一次开始进入普通家庭。

这是一件很有意义的事，多年以来，家庭一直是医疗语境下被忽略的场景，许多珍贵的上下文未能被记录沉淀。

如今，百小医正在填上这一缺口。

中国医学科学院肿瘤医院：肿瘤科；
首都医科大学附属北京儿童医院：儿科；
上海交通大学瑞金医院：呼吸与危重症医学科。

北儿、东肿、瑞金……百川的AI家庭医生，已在最严苛的临床场景跑通。

而这还只是开始。

再往外延伸，药企、医疗器械厂商、体检机构……这些过去跟患者之间隔着好几层信息壁垒的角色，未来都有可能通过AI家庭医生这个入口，更精准地触达用户需求，提供更有针对性的服务。

一个围绕AI家庭医生的医疗健康新生态，正在长出来。

医疗从来都不是一个只属于医院的事情。

它发生在凌晨三点的焦虑里，发生在家庭群里那句“医生到底怎么说”里，也发生在很多人看不懂检查单、却只能默默回家的路上。

过去这些时刻，大多数人只能靠自己。

但如果它真的能让更多人少一点慌张、少一点信息鸿沟、少走一点弯路，甚至只是让异地生活的子女，对父母的身体状况多一点安心……这件事本身，已经很重要了。

M4是大脑，百小医是身体。

前者证明通用大模型能在最难的医疗场景里完成专业推理、循证和长期记忆。

后者，把这种能力送到家庭、微信群和每一次真实的健康决策里。

Jay

「天线宝宝」机器人上门做保洁，200元/小时，纯·人工·智能2026-08-01
视频后期，危！MiniMax H3手绘即特效，多模态的「Coding时刻」来了2026-07-31
这这这…翁荔光速回OpenAI上班了2026-07-30
Ilya获黄仁勋50亿美元押注：“是时候Scaling了”2026-07-28

AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

走向“能被病人托付”的医疗增强大模型M4

会提问，从单轮问诊走向深度诊疗

会循证，从内容生成走向证据驱动

拥有Harness调度能力，持续提供健康管理服务

全病程记忆，掌握患者上下文

医疗推理能力，保证模型输出稳定性

医疗不是赛道，是一道考题

热门文章

李飞飞的世界模型，终于开始训练机器人了

GPT-5.6自己优化自己实锤了，新的左脚踩右脚已经出现

学习强国做了个AI社区，两周铺进68座城市

Kimi K3、Unlimited OCR包揽全球前二，中国开源模型持续刷屏海外

陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机