微软正在通过对Azure云平台进行一系列更新来提高对AI开发者的吸引力。
微软在近日举行的年度Ignite 2023大会上解释说,任何AI计划的成功都受到可用数据的限制,因此主要关注点之一就是数据和AI的集成。为此,微软宣布Microsoft Intelligent Data Platform平台中的Microsoft Fabric新产品已经全面上市,该产品汇集了各种数据库、分析和治理服务,以确保企业能够将他们最重要的数据资产与AI运营相集成。
此外,微软还宣布推出了Azure AI Studio,带来增强的AI搜索功能和内容安全等创新。
Microsoft Fabric现已上市
微软Azure数据、AI、数字应用和营销副总裁Jessica Hawk在一篇博文中解释说,数据是每个AI应用的基础,因此,企业需要全面的数据资产来推动AI创新,但这对他们来说在数据系统碎片化的时代构建起来可能是具有挑战性的。
据微软称,5月在微软年度开发者大会Build 2023期间宣布推出的Microsoft Fabric汇集了构建尖端AI应用和系统所需的所有数据和分析工具,将Data Factory、Synapse和Power BI等平台集成到一个软件即服务产品中,用一款简单、易于管理且经济高效的产品取代这些不同的系统,从而用于构建和集成AI。
微软表示,Fabric涵盖了数据专业人员所需的一切,包括数据集成、数据工程、数据仓库、数据科学、实时分析、应用可观察性和商业智能的工具。微软已经提供了一个全面的AI开发平台Azure OpenAI,用于构建各种下一代AI体验,但构建这些应用需要源源不断的干净数据和集成分析。
微软表示,现在开发者借助Fabric就可以访问完整的数据平台,而不是复杂的、迷宫般的、断开连接的工具。Microsoft Fabric提供了从数据中提取洞察并将其提供给AI系统所需的所有功能,很快将在预览版中集成copilot工具,使开发者能够使用自然语言命令与其进行交互。
Microsoft Fabric构建在名为OneLake的开放数据湖平台之上,该平台提供了单一事实来源,并且无需提取、移动或复制数据。微软表示,通过OneLake,Fabric还可以实现持久数据治理和单一容量定价模型,这种模型可以随着使用量的增长而扩展,同时其开放性消除了被锁定的风险。其他功能还包括和Microsoft 365应用例如Excel、Dynamics 365和Microsoft Teams的原生集成。
Azure AI Studio
除了Fabric之外,微软还面向AI开发者推出了Azure AI Studio的公开预览版,提供了在一个地方处理生成式AI模型所需的一切。Azure AI Studio有助于访问最新的大型语言模型、数据集成以支持检索增强生成,也就是一个可以利用企业私有数据集、智能搜索、全生命周期模型管理和内容安全工具的AI系统。
Azure AI Studio最重要的功能是Prompt Flow,一个用于管理提示编排和LLMOps的工具。微软表示,Azure Machine Learnin服务中也提供了Prompt Flow,可简化原型设计、实验、迭代和部署AI应用的过程。
Azure AI Studio中还提供了Azure AI Search(以前的Cognitive Search)。Azure AI Studio支持有效的数据检索,以提高AI响应的质量并减少延迟。Azure AI Studio被用于支持一种称为检索增强生成的技术,该技术允许大型语言模型整合来自其他来源的数据并提高响应的质量。
RAG对于某些类型的应用至关重要,例如客户服务代理,必须根据准确的信息生成可靠的答案。这种技术由矢量搜索提供支持,矢量搜索是一种在各种数据类型(包括图像、音频、文本和视频)中搜索信息的方法,是确保AI能够访问更全面数据的一项重要能力。
Azure AI Search还拥有一项称为语义排名器的功能,提供了和Microsoft Bing搜索结果采用的相同搜索重新排名技术,可根据响应的相关性对响应进行排名。
与此同时,Azure AI Content Safety为开发者工具可提供评估模型响应、确保其准确性并消除偏见和其他安全风险,主要功能是Responsible AI Dashboard、模型监控以及微软承诺为Azure客户辩护和赔偿,使其免受指控版权侵权的诉讼。
这种Customer Copyright Commitment适用于所有使用Azure OpenAI服务的客户,证明了微软对其保护AI开发能力的信心。Hawk表示:“通过将CCC扩展到Azure OpenAI Service,微软正在扩大我们的承诺以保护我们的商业客户,并在他们因使用Azure OpenAI Service或其生成的输出内容而被起诉侵犯版权时为任何不利的判决承担费用。”
AI更新无处不在
尽管所有这些公告已经非常全面了,但微软还有很多可以带给开发者的东西。例如,微软宣布即将在Azure OpenAI Service和Azure AI Studio中推出带有Vision的GPT-4 Turbo,这是微软合作伙伴OpenAI提供的最强大的大型语言模型,为开发者提供了一种在其AI应用中“解锁多模式功能”的方法,意味着AI应用现在可以使用对象检测来查看、理解并根据所看到的内容做出推断,无论是在现实世界、视频中还是其他地方。
Azure Cosmos DB数据库服务也得到了大量增强,微软致力于使该平台成为AI开发者的首选数据库。现在Azure Cosmos DB支持动态扩展,或者根据需求灵活地扩大或者缩小数据库,以确保他们始终使用最优化的云资源以优化云成本。
其他新功能还包括Azure Cosmos DB for MongoDB vCore的正式发布,以及Azure Cosmos DB for MongoDB vCore中的矢量搜索功能。借助此功能,开发者现在可以构建智能应用完全支持MongoDB存储在Azure Cosmos DB中,意味着MongoDB开发者将获得Azure原生集成和降低总拥有成本,同时享受该数据库服务熟悉的使用体验。
至于矢量搜索功能,它可以使用Azure Cosmos DB将非结构化数据存储为嵌入,这样就无需将数据从平台传输到具有矢量搜索功能的专用平台上。
此外,微软正在增强Azure Kubernetes Service,一个开源Kubernetes工具的托管版本,用于编排托管AI应用组件的软件容器。
微软表示,AKS现在支持专门的机器学习工作负载,例如大型语言模型,只需最少的配置即可启动和运行。新的Kubernetes AI工具链操作工具可以在AKS上跨可用的CPU和GPU自动部署大型语言模型。
它的工作原理是根据可用的选择,为每个模型选择最优化的基础设施。通过这种方式,开发者可以在多个GPU数量较少的虚拟机之间分摊推理成本,这不仅降低了成本,还增加了可以运行大型语言模型工作负载的区域数量,同时消除了GPU数量较多的虚拟机的等待时间。微软表示,客户还可以运行AKS上托管的预设模型,从而缩短整体推理服务设置时间。
此外在AKS中还新增了Azure Kubernetes Fleet Manager,可用于管理跨Kubernetes集群的工作负载分配并促进平台和应用更新,因此开发者会知道他们正在运行最新、最安全的软件。
最后,微软宣布了适用于Windows、Linux和macOS操作系统的最新版本.NET计算框架。据称,新版本.NET 8为ASP.NET和.NET开发者带来了性能和生产力上的飞跃,为可与Azure紧密集成的新一代智能云原生应用奠定了基础。
其新功能包括对Azure Functions、Azure App Service、AKS和Azure Container Apps的支持,以及Visual Studio的更新、集成开发环境以及与GitHub和Microsoft DevBox的集成。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。