这些新产品旨在将各种形式的医疗数据整合起来,进行深入分析,从而为临床医生提供基于大模型的医疗辅助功能。
医疗保健领域越来越成为AI领域各大厂商的角逐焦点,微软便是其中最新的例子。
就在上周,微软宣布对其今年5月推出的数据分析平台Fabric进行扩展,使其能够对多种类型的医疗数据进行分析。此外,微软还宣布将在其Azure云计算服务中推出新选项,包括基于大语言模型的医疗保健助手。
微软Cloud for Healthcare医疗保健云总经理Umesh Rustogi在采访中解释称,“我们希望能在Fabric One Lake中建立起统一的多模态数据底座,在这里帮助用户将不同模态的数据整合起来,从而对数据进行推理、运行AI模型等。”
Rustogi还表示,目前媒体上已经有大量专题文章在讨论多模态技术趋势在医疗保健领域的重要意义,“我们从多家客户那边听到了这一论断。他们认为,如果能将多种数据模态结合起来,就能释放出新的见解,带来单一数据模态研究所无法企及的可能性。”
微软Cloud for Healthcare总经理Umesh Rustogi
这种组合模态的现实用例包括“一些看似简单的任务,比如根据成像结果和临床诊断标准来确定患者接受护理的次序。这是个极为常见的期望用例,但在目前还很难真正实现。”Rustogi还引用了2020年《自然》杂志上发表的研究作为范例,文中概述的“数据融合”技术可“用于将医学影像同EHR(电子健康记录)相结合”。
Fabric的另一项新功能则是“去识别化服务”,即使用机器学习形式的AI技术来清洗临床数据,从而隐藏医生笔记中包含的患者身份信息。Rustogi表示,“对于整个医疗保健行业来说,如何在获取这些非结构化临床记录的同时、以有意义的方式对其进行「去识别化」处理,一直是个难以解决的现实挑战。”
Rustogi的同事、微软健康AI及健康与生命科学主管Hadas Bitran,则讨论了Azure Web服务业务中的几项新增AI产品。
首先是Azure AI Health Insights,这款产品由预构建的机器学习AI模型组成,在目前的预览阶段共提供三种新增模型选项:
除了这三款模型之外,新服务还包含多个预先内置的模型选项,后者已经在临床试验中被用于匹配和分析肿瘤表型。
另有一款名为Azure AI Health Bot的新产品,其使用大语言模型技术从医疗机构自有数据库、美国国立卫生研究院和美国药监局先进来源处,为医疗问题检索匹配的答案。
在与Rustogi共同接受的采访中,Bitran表示“其中的基本思路,就是通过这项服务为客户提供专业的医疗保健辅助体验。”
“有趣的是,这种探索能够产生级联效应。也就是说,医生可以优先使用自己的信息来源;但如果找不到相匹配的信源内容,AI服务将提供来自可靠消息来源的答案。如果后者处同样没有可供参考的内容,AI服务还能从更广泛的通用信息中搜寻参考资料。”
当然,目前人们对于在医疗保健等敏感场景下使用生成式AI(特别是大语言模型)仍抱有诸多怀疑。那么微软又是如何看待这些担忧?
微软健康AI及健康与生命科学负责人Hadas Bitran
Bitron认为,“这是个很好的问题,也确实值得我们高度关注。我绝对相信大语言模型还需要进一步发展,才能真正带来符合需求的良好结果。”
“我们采取的方法,就是对于所创建的每个模型,只要其属于大语言模型,就必须始终受到医疗保健行业内特定保障措施的约束。”
Bitran还强调,“其中一种有趣的保障方法,就是在将大语言模型与体量较小且基于规则的模型混合起来,通过这种方式保证大语言模型始终稳定可靠。”
例如,在用于临床报告简化的预构建模型当中,“我们不仅要求语言模型对自己生成的结果做出解释,同时还添加了一系列预处理和后处理逻辑,借此获取简化结果并结合性能指标衡量其可靠性。接下来,我们还会对结果进行交叉引用,看看其能否切实在相关场景中起到简化作用,或者是否存在各种捏造或遗漏问题。”
Bitran指出,医疗保健领域的工作属于微软此前强调的“负责任的AI框架”所涵盖的范畴。目前这套框架仍在评估阶段。
“负责任的AI框架不仅涉及隐私、安全、可及性和透明度等层面,同时也高度强调正确性、负责任与公平性。”
Bitron最后总结道,“另外需要专门强调的是,我们的模型并不是要取代人类医生。人类医生永远是流程的主体,而这些新模型的目标是作为能帮助临床医生减轻负担的工具,为他们带来更加高效、轻松的工作体验。”
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。