想象一下,一位20世纪50年代的医生正在治疗一位症状复杂的患者。他会首先查阅袖珍工具书《华盛顿医学治疗手册》,接下来又翻开办公室里保存的冗长参考资料《哈里森内科学原理》。由于仍然难下诊断,他又与同事们讨论了这个病例,再动身前往医院的图书馆中搜索相关期刊文章。
在整个20世纪,医生主要就是依靠这种方式检索医学知识。然而几十年过去,信息总量激增,计算机将知识内容数字化、互联网则连通了整个世界。到21世纪初,医生转向在线信息来源,首先通过台式电脑、随后则开始使用移动设备。
现如今,医生们又多了更多知识检索方案。
医生们会经常搜索PubMed及谷歌学术等数据库,翻阅UpToData主题摘要。有三分之二的从业者会使用MDCalc,这是一款带有各种决策支持功能的即时参考工具。此外,医生们还会访问专业协议网站、WebMD等医学网站,有时甚至还会参考非医学类网站。
而人工智能的大爆发再次改变了我们获取知识的方式。在本文中,我们将一同了解AI科技如何帮助从业者在信息浪潮中紧跟时代步伐。
在信息浪潮中紧跟时代步伐
PubMed索引共包含3600万篇综述文章,并且以每年100万篇的速度持续增加——相当于每分钟新增两篇。谷歌学术上则包含约4亿篇论文、引文及专利,外加几千份临床实践指南。很明显,没有任何人类医生能够跟得上这样的知识更新速度。
在20世纪90年代初,热爱网球、极具前瞻性思维的哈佛医学院肾病专家Bud Rose博士曾尝试开发一款计算机程序来解决这个问题。这款程序能够搜索并定期更新存储在软盘之上的临床“主题卡”,而由此建立的公司被他命名为UpToDate。
随着主题数量的增加,存储介质也变成了CD-ROM、互联网以及移动设备。
如今,UpToDate已经成为Wolters Kluwer Health的组成部分,其中约有8000名附属临床专家及60名副主编共同遵循同行评审的循证医学方法,开发并维护着涵盖25个医学专业的1.2万份临床主题摘要。
这款产品大获成功。目前来自约5万家医疗机构的近300万临床医生都在通过机构订阅等形式使用UpToDate,面向个人用户的年度订阅价格则为579美元。
这份权威摘要大受欢迎自然有其原因。正如Wolters Kluwer Health首席医疗官Peter Bonis博士在采访中所言,“我们所做的一切,都是为了帮助临床医生针对患者病情做出最佳决策。”
然而,由于其并不属于查询服务,所以医生必须翻阅相关主题摘要才能为困扰自己的问题找到答案。例如,UpToDate无法直接回答用户“如何治疗小肠细菌过度滋生?”的问题。相反,用户需要先搜索SIBO、选择主题摘要,再浏览结果才能发现作者普遍推荐利福昔明作为首选疗法。该公司报告称,用户交互的平均持续时间长达60秒。
UptoDate主题摘要示例
运用AI科技管理医学知识
UpToDate目前正为平台添加AI驱动搜索功能,以便用户可以直接从现有摘要中访问到有针对性且可逐字逐句查询的相关段落。其目标也非常明确,让产品更加易用、效率更高,同时避免因引入AI生成内容而导致的错误。
OpenEvidence及Consensus等专门构建的新兴AI原生搜索引擎则采用了不同的实现方法。这些产品不会显示预先写好的主题摘要,而直接以动态形式回应用户的查询。
这类解决方案面临的核心挑战,在于如何确保其输出足够可靠以符合医疗实践的要求。生成式AI产品经常会产生不够稳定的答案。例如,谷歌Gemini大模型就曾犯下广为人知的错误,建议人们每天吃一块石头,理由是“石头是矿物质和维生素的重要来源”。
这类“幻觉”在很大程度上反映了所谓“垃圾进、垃圾出”的问题。正如OpenEvidence公司创始人Daniel Nadler对此做出的解释,“网站索引并不是事实索引。”因此在整个互联网数据(包括来自Reddit及Onion网站的数据)之上训练而成的大语言模型,必然会产生虚假信息。
Nadler创立的这家公司源自梅奥诊所的平台加速计划,希望通过确保仅从经同行评审的生物医学文献中汲取知识来回避这些问题。
当用户(必须身为临床医生)输入宽泛或具体的问题(例如「对于买不起利福昔明的患者,我该如何治疗小肠细菌过度滋生?」)之后,OpenEvidence会在数百万份临床文档中识别出潜在的相关来源,包括对PubMed摘要、期刊文章全文、专著、书籍章节等中的元数据进行索引。在此之后,它会根据查询的相关性、出版日期、期刊影响因子以及引用计数等因素选择最权威的知识来源。最后,由大语言模型整理出带有引用来源链接的摘要响应结果。
OpenEvidence正在医学领域迅速传播。自今年1月以来,已经有超过25万名临床医生访问该网站,单在刚刚过去的11月就完成了近200万次查询。该产品主要靠广告支持运营,个人用户可以免费使用。
另有一款名为Consensus的AI搜索引擎,涵盖医学以及生物学、环境科学等非医科学领域。此网站面向公众开放,其中临床医生占用户总量的五分之一。在输入问题之后,Consensus就会整理答案,同时辅以指示建议强度的“共识指标”(对于是/否类问题)。
OpenEvidence查询响应示例
权衡利弊
打个比方,搜索PubMed或者谷歌学术就类似于向图书管理员询问特定主题的最佳知识来源。UpToDate则更接近图书馆中的特殊收藏。在使用这些工具时,用户必须浏览大量超链接列表,选定并阅读来源、再从中提取相关信息。通过这样的过程,用户需要花费一些时间和精力来逐渐了解某个主题,再根据自己掌握的新知识尝试解决特定问题。
与此不同,使用OpenEvidence或者Consensus等AI搜索则类似于直接向一位聪明的教授提问并收到带有参考资料的答案。其快速、方便而且非常具体。个中的风险在于,某些“言之凿凿”的答案可能达不到置信标准或者缺乏充分的背景信息。因此,临床医生必须全程持续跟进,并在必要时进行深入挖掘。
为此,我们向两位杰出的信息学医生询问了他们对AI搜索的看法。
MDCalc创始人兼急诊科医生Graham Walker博士警告称,“人们对于自动化系统可能引发偏见的担忧值得关注——已经有一部分医生默认这些工具比自己更聪明,而这会逐渐削弱医生对于患者症状进行批判性思考的能力。”
在另一方面,心脏病专家及信息学家Larry Klein博士则认为AI搜索具有显著且纯粹的积极作用。他解释称,“我每天都在使用OpenEvidence,向它问题,它就像随时坐在我身边的一位专家级同事。这项技术毫无疑问具有革命性意义。”
但请注意,传统搜索与AI搜索其实各有用处,只是适用场景不甚相同。例如,接收急性冠状动脉综合征患者的住院医生可能会查阅UpToDate以了解诊疗原则,而一位杰出的肾病学家也可能会搜索PubMed来参考肾小球肾炎治疗试验中患者的特征。与此对应,在青霉素过敏的情况下,决定是否治疗幽门螺旋杆菌感染的家庭护士则可向OpenEvidence查询以获取快速指导。
展望未来
调查发现,临床医生每接待两名患者,就会面对至少一个医学知识方面的问题——通常涉及症状产生原因或者疾病的治疗方法。然而,医生们往往只能为半数问题找到答案,主要就是因为没有充足的查询时间。
AI搜索能够加快信息传播速度来协助解决这个问题。然而,这种新的工作方式也凸显出人机管理、细微差别与简洁性、自动/手动处理以及潜在的机器错误/人为错误之间的密切关联。我们必须认真评估这些AI工具如何影响临床工作人员及患者,努力保证其尽量发挥更纯粹的积极作用。
纵观行业历史,医生管理信息的方式一直在变化并且备受关注。例如,当初曾有许多医生反对从医学教科书中学习知识,强调根据经验总结心得才能让人们进行更加深入的思考。几十年后,又有人“坚持认为医疗信息的数字化,破坏了有形纸质工具所承载的传统思维与认知实践。”
发展之路从来不可能一帆风顺。快速运用集体知识的能力既可以帮助医疗从业者更好地减轻病患痛苦、促进诊疗体验,也有助于减轻医生们的认知负担以保持更充沛的精力与工作状态。
随着各类新兴AI功能的出现,我们应当将重点从回忆事实转向提出正确问题。尽管答案的出现速度远远超过历史上的任何时期,但大多数临床决策仍然缺乏充足的已发表数据。因此,临床直觉和经验仍然非常重要——与以往任何时候都同等重要!正如循证医学运动的先驱们解释的那样,“优秀的医生既善于运用个人临床专业知识,也重视对高质量外部证据的参考,二者不可偏废、应当相辅相成。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。