尽管人工智能(AI)辅助诊断有望成为未来医疗领域的新标准,但近期一位宣称“我每天都在使用AI方案”的放射科医师在美国国家医学院研讨会上提出更令人信服的例子,切实表明了AI带来的前景与可能面临的风险。
十多年以来,AI支持的诊断图像分析已经颇为常见,其“影响着我所遇到的每一位病人”,来自北卡罗来纳州格林斯博罗的执业放射科医生、Radiology Partners创新部署总监Jason Poff博士表示。该机构的自有及附属诊所掌握的医学影像在全美占比高达10%左右。
从好的方面来看,AI技术“能够还原一个早在10年之前关于特定事件的样貌”,利用患者记录中的不同数据整理出结构化概述。它还可以在各种意外的临床状况之下检测出异常:例如一位56岁的女性感到左胸疼痛,没有外伤史,放射科医生竟然漏诊了她的肋骨骨折。与人类放射科医生不同,人类可能会在对复杂病例的诊断达到一定数量之后陷入停滞,诊断能力再无寸进;而AI却可以提炼出一切可能性,而不会因为病理学层面的影响因素而分心。
但Poff同时提醒称,“这份收益也绝非纯利无弊,最大的问题在于无法给出确定性的结论。我们花了很多时间深入研究各种失败模式,并意识到AI可能会误导用户。”
AI方案既可以产生误报,导致人类不得不越过AI“以阻止不必要的手术干预”;也可能产生漏报,例如忽略了其训练场景下未曾接受过的重要发现。此外,AI诊断的准确性在不同案例之间的表现也是参差不齐。
Poff补充称,这种不确定性“正是AI方案一直在努力解决的问题”,不过他似乎刻意回避了人类医生也有可能出现同样的情况。
关键在于人类如何与AI交互。例如在实时诊疗病患时,“到底应该在多大程度上信任AI提供的建议?”Poff的建议是,也许可以通过一系列评判指标来反映患者的潜在诊断意见是否处于AI训练的领域之内,例如可能超出领域或者肯定已经超纲。
纽约大学格罗斯曼医学院放射学系研究副主任 Yvonne Lui 博士指出,资金问题也是个很大的难点。在她看来,“AI工具对于人类社会的实际贡献和造成的成本尚不明确”,因为这些工具本身可能非常昂贵。例如,当她的团队尝试使用AI来扫描可能患有乳腺癌的患者的补充影像以降低非必要的复诊时,复诊率、医疗成本以及患者的焦虑感实际上不降反升。
她认为,“我们必须找到能够在AI工具的支持下明确受益的具体用例。”
同样的,Poff团队也试图使用AI来检测气胸(肺塌陷),并发现所有真实病例都能由放射科医生检测发现,但其中同样存在误报比例。
尽管面对挑战,但放射科医生们预测,为了及时处理大量需要阅读和跟进的医学影像,AI技术的应用范围将不可避免地逐步扩大。
最近一项研究似乎给AI技术的适当应用指明了一条道路。这项研究展示了人类与AI交互时带来的积极变化。今年3月发表在《自然医学》杂志上的研究论文发现,AI技术提高了一部分放射科医生的诊断准确率,但同时也干扰了另一部分医生的判断。在后一种情况下,某些本应否决AI建议的临床医生似乎在被带着走,而能够从建议中受益的临床医生则仍能坚持自己的判断。由此看来,临床医生自身的实际经验、专业知识和决策风格成为左右成效的关键。
一位高级研究员在哈佛医学院发表的相关新闻稿中表示,“我们的研究提示了机器与人类间的交互微妙性与复杂性。”
“机器”本身也同样是矛盾的综合体。在简要概述AI从基于规则的模型转向深度学习、再演进至大语言模型的整个过程时,Google Health首席临床官Michael Powell博士警告称“现实世界混沌杂乱,技术细节往往决定一切。如果将不同类型的AI方案混为一谈,很可能无法实现理想的有效性或者安全性。”
但他同时补充称,“这也带来了令人难以置信的机遇。我们知道未来一定会朝着这个方向发展,只是不确定这个未来是10年之后还是100年后。”
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。