尽管人工智能(AI)辅助诊断有望成为未来医疗领域的新标准,但近期一位宣称“我每天都在使用AI方案”的放射科医师在美国国家医学院研讨会上提出更令人信服的例子,切实表明了AI带来的前景与可能面临的风险。
十多年以来,AI支持的诊断图像分析已经颇为常见,其“影响着我所遇到的每一位病人”,来自北卡罗来纳州格林斯博罗的执业放射科医生、Radiology Partners创新部署总监Jason Poff博士表示。该机构的自有及附属诊所掌握的医学影像在全美占比高达10%左右。
从好的方面来看,AI技术“能够还原一个早在10年之前关于特定事件的样貌”,利用患者记录中的不同数据整理出结构化概述。它还可以在各种意外的临床状况之下检测出异常:例如一位56岁的女性感到左胸疼痛,没有外伤史,放射科医生竟然漏诊了她的肋骨骨折。与人类放射科医生不同,人类可能会在对复杂病例的诊断达到一定数量之后陷入停滞,诊断能力再无寸进;而AI却可以提炼出一切可能性,而不会因为病理学层面的影响因素而分心。
但Poff同时提醒称,“这份收益也绝非纯利无弊,最大的问题在于无法给出确定性的结论。我们花了很多时间深入研究各种失败模式,并意识到AI可能会误导用户。”
AI方案既可以产生误报,导致人类不得不越过AI“以阻止不必要的手术干预”;也可能产生漏报,例如忽略了其训练场景下未曾接受过的重要发现。此外,AI诊断的准确性在不同案例之间的表现也是参差不齐。
Poff补充称,这种不确定性“正是AI方案一直在努力解决的问题”,不过他似乎刻意回避了人类医生也有可能出现同样的情况。
关键在于人类如何与AI交互。例如在实时诊疗病患时,“到底应该在多大程度上信任AI提供的建议?”Poff的建议是,也许可以通过一系列评判指标来反映患者的潜在诊断意见是否处于AI训练的领域之内,例如可能超出领域或者肯定已经超纲。
纽约大学格罗斯曼医学院放射学系研究副主任 Yvonne Lui 博士指出,资金问题也是个很大的难点。在她看来,“AI工具对于人类社会的实际贡献和造成的成本尚不明确”,因为这些工具本身可能非常昂贵。例如,当她的团队尝试使用AI来扫描可能患有乳腺癌的患者的补充影像以降低非必要的复诊时,复诊率、医疗成本以及患者的焦虑感实际上不降反升。
她认为,“我们必须找到能够在AI工具的支持下明确受益的具体用例。”
同样的,Poff团队也试图使用AI来检测气胸(肺塌陷),并发现所有真实病例都能由放射科医生检测发现,但其中同样存在误报比例。
尽管面对挑战,但放射科医生们预测,为了及时处理大量需要阅读和跟进的医学影像,AI技术的应用范围将不可避免地逐步扩大。
最近一项研究似乎给AI技术的适当应用指明了一条道路。这项研究展示了人类与AI交互时带来的积极变化。今年3月发表在《自然医学》杂志上的研究论文发现,AI技术提高了一部分放射科医生的诊断准确率,但同时也干扰了另一部分医生的判断。在后一种情况下,某些本应否决AI建议的临床医生似乎在被带着走,而能够从建议中受益的临床医生则仍能坚持自己的判断。由此看来,临床医生自身的实际经验、专业知识和决策风格成为左右成效的关键。
一位高级研究员在哈佛医学院发表的相关新闻稿中表示,“我们的研究提示了机器与人类间的交互微妙性与复杂性。”
“机器”本身也同样是矛盾的综合体。在简要概述AI从基于规则的模型转向深度学习、再演进至大语言模型的整个过程时,Google Health首席临床官Michael Powell博士警告称“现实世界混沌杂乱,技术细节往往决定一切。如果将不同类型的AI方案混为一谈,很可能无法实现理想的有效性或者安全性。”
但他同时补充称,“这也带来了令人难以置信的机遇。我们知道未来一定会朝着这个方向发展,只是不确定这个未来是10年之后还是100年后。”
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。