微软近日对其开发者工具进行了大量更新,试图让生成式AI开发者的工作更轻松。
软件和云巨头微软表示,这些更新将有助于团队构建能力更强的、知识更丰富的AI模型,包括专门的Copilot,可以完成更广泛的企业相关任务。这次微软在Microsoft Build 2024上发布的公告还包括了对Microsoft Azure AI Search以及Azure OpenAI Service的一些重大增强,去年推出的Azure AI Studio平台也全面上市。
最受生成式AI开发者欢迎的更新之一就是Microsoft Azure AI Search中的新搜索相关性功能。这是一个用于检索增强生成(RAG)和企业搜索的数据检索系统,使AI模型能够利用客户的私人数据。微软在Build大会上宣布支持先进的搜索技术,包括混合搜索和重新排名,以及新服务提高了存储容量以及增加了矢量索引大小,使用户可以更轻松地扩展他们的生成式AI应用。
微软解释说,这些增强功能将有助于为生成式AI模型返回相关性更高的搜索结果,从而提高响应的准确性。此外微软还宣布了新的数据和处理集成,这得益于增加了内置的图像矢量化功能以帮助本机图像搜索,以及集成了OneLake以帮助将Azure AI Search和Microsoft Fabric中的数据进行连接。
微软在去年11月推出了Azure AI Studio的预览版,为开发者提供了在一个地方创建一系列生成式AI体验所需的一切。Azure AI Studio作为Azure OpenAI Service一个组成部分,有助于访问广泛的大型语言模型、RAG数据集成工具,以及智能搜索功能、全生命周期模型管理和AI安全工具。
Azure AI Studio现已全面上市,新增了一些强大的新功能,包括微软所谓的“代码优先开发体验”,是通过与Azure Developer CLI (azd)和AI Toolkit for Microsoft Visual Studio Code工具集成引入的。用户在这个平台上很快就能够通过新模型即服务功能访问最新的基础模型,包括OpenAI目前最强大的LLM GPT-4o新模型。
微软承诺,Azure OpenAI Service本身也增加了大量新功能,包括新的Assistants API,可以帮助开发者打造更高级的虚拟助手和聊天机器人,并且具有更细致的理解力和响应能力。
参考架构和定制的生成式AI模型
在AI开发方面,微软发布了一系列参考架构以及实施指南,帮助客户设计和优化的智能的AI应用。微软表示,这么做是为了让开发团队简单地利用Azure模版和实践作为一种蓝图,快速构建更可靠的、更具成本效益和合规性的私有聊天机器人。
微软表示,Azure OpenAI Service的参考架构即将推出,可以帮助团队快速启动聊天机器人的开发工作。新的着陆区加速器旨在标准化和自动化支持这些应用所需的云基础设施部署。此外,开发者可以使用云指南和服务指南,后者提供了关于设置交付智能应用的Azure服务的更精确说明。
此外微软还宣布了一种名为“自定义生成”的新模型类型,即将推出预览版,旨在让客户可以从单个文档开始着手,该服务将指导他们完成架构定义和模型创建的过程。
它的主要优点是无需对数据进行大量标记,因此用户能够以各种格式和模板向客户生成式AI模型提供更复杂的文档。微软表示,通过使用大型语言模型提取相关数据字段,只有当特定字段不正确时,用户才需要更正模型的输出。通过这种方法,模型就能够随着新样本添加到训练数据集中而进行调整,从而不断提高响应的准确性和相关性。
Phi-3-视觉
微软通常是利用和OpenAI的密切合作关系,为开发者提供机会访问最强大的大型语言模型。但同时微软自己也启动了一些项目,例如Phi系列,规模较小的大型语言模型,旨在支持笔记本电脑、智能手机和平板电脑等设备上的AI处理。Phi-3-vision现已推出预览版,是该家族的最新型号。
这是一种新的多模式大型语言模型,旨在支持视觉、图表、图形和表格推理。换句话说,它可以理解所看到的内容,无论是周围世界的视图、图像还是各种文档。微软表示,它可以转换输入的图像和文本并输出响应,解释它所看到的内容。
例如,用户可以询问有关图表或特定图像的问题,Phi-3-vision将做出准确回答。该模型与Phi-3-small和Phi-3-medium一起作为Azure AI Studio模型即服务目录的一部分提供给用户。
Azure AI Speech
Azure AI Speech获得了许多新的功能,用于构建更高质量的语音应用,而且现在已经开始提供预览版。
其中包括一项新的语音分析功能,针对那些从音频和视频数据中提取洞察的模型,实现端到端的工作流程自动化。它集成了转录、摘要、语音识别、说话人分类、情感分析等功能,旨在处理客户反馈、播客、呼叫中心录音、采访等内容。
Azure AI Speech也将提供视频配音功能。据微软称,这是一项新服务,可以把视频文件翻译成多种受支持的语言,帮助企业通过视频内容吸引全球观众。用户可以通过上传一个或一系列视频来创建配音管道,Azure AI Speech可以自动把内容翻译成所选语言。
AI安全更新
AI安全始终是一个重要主题,微软通过更新Azure AI Content Safety产品展示了自己对AI安全的重视。
其中的新功能包括自定义类别,可以用于为生成式AI应用创建自定义的过滤器,因此开发者就可以根据企业负责任的AI政策过滤输出内容。微软表示,它将帮助用户开发出一种更精确的、相关性更高的内容安全方法,提供标准部署和快速部署选项,后者适用于需要在一小时内快速解决的事件。
Microsoft Azure OpenAI Service中提供的Prompt Shields,以及AI Studio and OpenAI Service中的Groundedness Detection功能,为大型语言模型提供了额外的内容过滤工具。微软表示,这些工具旨在缓解恶意提示注入攻击方面的“关键进展”(在这种攻击事件中攻击者的目的是操纵生成式AI模型),以便他们产生“幻觉”,生成错误或不准确的响应。
针对教育领域的生成式AI
最后微软表示,正在和非营利教育组织Khan Academy合作,探索生成式AI在教育领域的潜力。
微软的合作伙伴正在计划做一些有趣的事情。例如,微软向所有美国K-12教育工作者免费提供Khanmigo for Teachers,一款AI驱动的教学助手,可以帮助教师腾出时间与学生互动。除了提供对该服务的免费访问之外,微软还提供了额外的Azure资源,以确保它可以扩展以支持预期的新用户涌入。
与此同时,可汗学院表示,它正在与微软合作,探索生成式人工智能如何利用最新版本的 Phi-3 来改善数学辅导,Phi-3 正在非营利组织的私人教育内容上接受培训。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。