微软近日对其开发者工具进行了大量更新,试图让生成式AI开发者的工作更轻松。
软件和云巨头微软表示,这些更新将有助于团队构建能力更强的、知识更丰富的AI模型,包括专门的Copilot,可以完成更广泛的企业相关任务。这次微软在Microsoft Build 2024上发布的公告还包括了对Microsoft Azure AI Search以及Azure OpenAI Service的一些重大增强,去年推出的Azure AI Studio平台也全面上市。
最受生成式AI开发者欢迎的更新之一就是Microsoft Azure AI Search中的新搜索相关性功能。这是一个用于检索增强生成(RAG)和企业搜索的数据检索系统,使AI模型能够利用客户的私人数据。微软在Build大会上宣布支持先进的搜索技术,包括混合搜索和重新排名,以及新服务提高了存储容量以及增加了矢量索引大小,使用户可以更轻松地扩展他们的生成式AI应用。
微软解释说,这些增强功能将有助于为生成式AI模型返回相关性更高的搜索结果,从而提高响应的准确性。此外微软还宣布了新的数据和处理集成,这得益于增加了内置的图像矢量化功能以帮助本机图像搜索,以及集成了OneLake以帮助将Azure AI Search和Microsoft Fabric中的数据进行连接。
微软在去年11月推出了Azure AI Studio的预览版,为开发者提供了在一个地方创建一系列生成式AI体验所需的一切。Azure AI Studio作为Azure OpenAI Service一个组成部分,有助于访问广泛的大型语言模型、RAG数据集成工具,以及智能搜索功能、全生命周期模型管理和AI安全工具。
Azure AI Studio现已全面上市,新增了一些强大的新功能,包括微软所谓的“代码优先开发体验”,是通过与Azure Developer CLI (azd)和AI Toolkit for Microsoft Visual Studio Code工具集成引入的。用户在这个平台上很快就能够通过新模型即服务功能访问最新的基础模型,包括OpenAI目前最强大的LLM GPT-4o新模型。
微软承诺,Azure OpenAI Service本身也增加了大量新功能,包括新的Assistants API,可以帮助开发者打造更高级的虚拟助手和聊天机器人,并且具有更细致的理解力和响应能力。
参考架构和定制的生成式AI模型
在AI开发方面,微软发布了一系列参考架构以及实施指南,帮助客户设计和优化的智能的AI应用。微软表示,这么做是为了让开发团队简单地利用Azure模版和实践作为一种蓝图,快速构建更可靠的、更具成本效益和合规性的私有聊天机器人。
微软表示,Azure OpenAI Service的参考架构即将推出,可以帮助团队快速启动聊天机器人的开发工作。新的着陆区加速器旨在标准化和自动化支持这些应用所需的云基础设施部署。此外,开发者可以使用云指南和服务指南,后者提供了关于设置交付智能应用的Azure服务的更精确说明。
此外微软还宣布了一种名为“自定义生成”的新模型类型,即将推出预览版,旨在让客户可以从单个文档开始着手,该服务将指导他们完成架构定义和模型创建的过程。
它的主要优点是无需对数据进行大量标记,因此用户能够以各种格式和模板向客户生成式AI模型提供更复杂的文档。微软表示,通过使用大型语言模型提取相关数据字段,只有当特定字段不正确时,用户才需要更正模型的输出。通过这种方法,模型就能够随着新样本添加到训练数据集中而进行调整,从而不断提高响应的准确性和相关性。
Phi-3-视觉
微软通常是利用和OpenAI的密切合作关系,为开发者提供机会访问最强大的大型语言模型。但同时微软自己也启动了一些项目,例如Phi系列,规模较小的大型语言模型,旨在支持笔记本电脑、智能手机和平板电脑等设备上的AI处理。Phi-3-vision现已推出预览版,是该家族的最新型号。
这是一种新的多模式大型语言模型,旨在支持视觉、图表、图形和表格推理。换句话说,它可以理解所看到的内容,无论是周围世界的视图、图像还是各种文档。微软表示,它可以转换输入的图像和文本并输出响应,解释它所看到的内容。
例如,用户可以询问有关图表或特定图像的问题,Phi-3-vision将做出准确回答。该模型与Phi-3-small和Phi-3-medium一起作为Azure AI Studio模型即服务目录的一部分提供给用户。
Azure AI Speech
Azure AI Speech获得了许多新的功能,用于构建更高质量的语音应用,而且现在已经开始提供预览版。
其中包括一项新的语音分析功能,针对那些从音频和视频数据中提取洞察的模型,实现端到端的工作流程自动化。它集成了转录、摘要、语音识别、说话人分类、情感分析等功能,旨在处理客户反馈、播客、呼叫中心录音、采访等内容。
Azure AI Speech也将提供视频配音功能。据微软称,这是一项新服务,可以把视频文件翻译成多种受支持的语言,帮助企业通过视频内容吸引全球观众。用户可以通过上传一个或一系列视频来创建配音管道,Azure AI Speech可以自动把内容翻译成所选语言。
AI安全更新
AI安全始终是一个重要主题,微软通过更新Azure AI Content Safety产品展示了自己对AI安全的重视。
其中的新功能包括自定义类别,可以用于为生成式AI应用创建自定义的过滤器,因此开发者就可以根据企业负责任的AI政策过滤输出内容。微软表示,它将帮助用户开发出一种更精确的、相关性更高的内容安全方法,提供标准部署和快速部署选项,后者适用于需要在一小时内快速解决的事件。
Microsoft Azure OpenAI Service中提供的Prompt Shields,以及AI Studio and OpenAI Service中的Groundedness Detection功能,为大型语言模型提供了额外的内容过滤工具。微软表示,这些工具旨在缓解恶意提示注入攻击方面的“关键进展”(在这种攻击事件中攻击者的目的是操纵生成式AI模型),以便他们产生“幻觉”,生成错误或不准确的响应。
针对教育领域的生成式AI
最后微软表示,正在和非营利教育组织Khan Academy合作,探索生成式AI在教育领域的潜力。
微软的合作伙伴正在计划做一些有趣的事情。例如,微软向所有美国K-12教育工作者免费提供Khanmigo for Teachers,一款AI驱动的教学助手,可以帮助教师腾出时间与学生互动。除了提供对该服务的免费访问之外,微软还提供了额外的Azure资源,以确保它可以扩展以支持预期的新用户涌入。
与此同时,可汗学院表示,它正在与微软合作,探索生成式人工智能如何利用最新版本的 Phi-3 来改善数学辅导,Phi-3 正在非营利组织的私人教育内容上接受培训。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。