Alphabet公司旗下位于英国的人工智能事业部DeepMind开发出一套系统,据称能够以高达94%的准确率诊断超过50种不同的眼科疾病。
该部门在今天由科学杂志《自然-医学》发表的一项研究中详述了该项目。这套系统是DeepMind与Moorfields眼科医院两年多的合作成果。Moorfields眼科医院是一家位于英国本土的眼科医疗中心。
作为该项目的一部分,Moorfields方面负责为DeepMind提供16000份匿名的三维眼部扫描图片。该部门则利用这些文件训练AI系统学会如何发现不同疾病的具体征兆。其软件利用两套不同的神经网络进行分析:其中一套处理眼部扫描图片以发现问题,另一套负责将这些发现转化为诊断结论并判断是否存在现有推荐治疗建议。
DeepMind方面利用1000份未在训练中使用的扫描资料对该系统的诊断准确性做出了测试。根据其说法,这款软件最终实现了94%的诊断准确率,其间出现了两次定位错误但没有发生任何漏报状况。虽然这样的结果本身似乎无法令人完全满意,但DeepMind方面指出,这样的表现已经成功超越另外八位同样参加扫描图片评估的人类眼科医疗专家。
DeepMind的最终目标是在眼科治疗需求愈发高涨的当下成功缩短诊疗时间。随着人口老龄化等因素的增加,英国的眼科转诊率在2007年到2017年之间增长了37%。这样的趋势已经导致病患等待时间延长,并可能使得部分患者面临健康风险。
DeepMind联合创始人兼应用AI负责人Mustafa Suleyman在一篇博文中写道,“对这些扫描图片进行分析所需要的时间,再加上医疗卫生专业人员日常需要处理的扫描资料总量(单在Moorfields中心,每天需要检查的图片就超过1000份),可能导致扫描与治疗之间出现长时间延迟——这意味着病患有可能得不到紧急护理。我们开发的系统旨在解决这一挑战。”
该部门表示,这款软件不仅能够诊断疾病,还可以根据患者病情的严重程度对其进行优先级排序。话虽如此,DeepMind方面并不打算借此彻底取代人类医生。他们表示,这套系统作为两套独立的神经网络进行实现,而其诊断背后的思维将可供医疗专业人员进行后续验证。
Suleyman写道,“这项功能至关重要,因为眼科治疗专业人员一直在决定患者所应接受的护理与治疗类型方面发挥关键作用。他们对技术进行仔细审查并提出建议,将成为该系统全面落地的关键性前提。”
DeepMind与Moorfields眼科医院计划于2019年开始对该系统进行临床试验。作为协议中的组成部分,DeepMind方面将在各英国医院及社区诊所中以免费形式在未来5到30年当中提供该项技术。
DeepMind方面还在探索其它立足医疗领域应用人工智能技术的方法。今年早些时候,其与美国退伍军人事务部合作建立起一套系统,旨在更好地检测患者的急性肾操作。另外,不久之前另一家名为Verily的Alphabet子公司也公布一种利用眼部扫描判断患者心脏疾病的方法。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。