至顶网软件频道消息: 微软今天在Build开发者大会上公布了一系列新的云服务,旨在让企业组织能够更有效地运用人工智能。
最大的亮点是一个名为“Brainwave Project”的实验性项目。它提供了在微软云数据中心对专有芯片的访问权限,这些芯片专门设计运行深度学习模型,因此性能上远超过普通芯片。
芯片方面是来自英特尔Startix系列的FPGA。FPGA可以定制,一直定制到电路,并通过优化来加快运行特定任务的速度。在Brainwave项目中,微软为其处理器配备了自行开发的人工智能引擎,以及旨在简化模型部署的组件。
因此,这项服务让开发者可以利用这些芯片,而无需通常所需的高度专业化软件工具。这些服务可以利用流行的TensorFlow AI开发框架,或者微软与之竞争的Cognitive Toolkit,这两者都是开源的。
微软计划随着时间的推移将增加对更深层次学习引擎的支持,并将Brainwave带入Azure Stack系统,这些系统都是由合作伙伴出售的设备,让企业能够在他们自己的数据中心内创建一个基本上是微软云平台的副本。
增加对Azure Stack的支持,这是微软将其AI服务扩展到公共云之外的一部分举措。该计划的另一个关键要素是Azure IoT Edge平台,这是一套分析工具,可以部署在工业系统等联网设备上,以分析本地重要数据。微软今天宣布,该产品将提供对Cognitive Services产品线的访问,从Custom Vision产品开始。
顾名思义,Custom Vision可以让开发人员创建定制的人工智能模型,以处理特定类型的视觉内容。微软今天上午公布了这项服务的升级迭代,可用于识别图像中的单个对象。
除此之外,微软其他计算机视觉服务也进行了一系列更新,以及一项名为“Project Ink Analysis”的全新实验性产品。微软表示,这款工具可以自动从手写文档中提取文本和形状。对于那些希望减少处理物理记录所需人数的企业组织来说,这是很便利的。
除了这些更新之外,微软还增强了部分专注于语音处理的人工智能产品组合。微软已经将之前完全不同的语音识别、转录、文本到语音和翻译服务整合到一个旨在简化开发人员工作的单一API中。
好文章,需要你的鼓励
Captions公司研究团队开发的Mirage模型实现了从音频直接生成说话视频的突破。该技术能准确生成与声音匹配的面部表情、唇型同步、手势动作和环境背景,甚至可仅从音频推测说话者外貌特征。基于统一的Diffusion Transformer架构,Mirage避免了传统方法的复杂专用模块设计,展现出卓越的情感表达和细节还原能力,为内容创作、教育培训和无障碍技术等领域开辟了新的应用可能。
牛津大学研究发现,尽管大语言模型在医学考试中表现出色,但在实际应用中效果大打折扣。研究显示,LLM直接测试时能94.9%准确识别病症,但人类使用LLM诊断时准确率仅34.5%,甚至低于不使用AI的对照组。问题源于用户提供信息不完整、LLM理解偏差等人机交互问题。专家指出,仅凭非交互式基准测试评估LLM存在误导性,需要真实的人机交互测试才能准确评估AI系统的实际性能。
NAVER和KAIST研究团队发现,先进AI模型在数学题自我修正方面存在严重缺陷。他们创建的MMRefine基准测试揭示,即使是GPT-4O等顶级模型也只能成功修正约23%的错误答案,而且经常将正确答案改错。研究发现不同模型在处理六种错误类型时表现差异巨大,特别是小型模型在空间推理修正上竟然超越了大型模型,颠覆了"越大越好"的认知。