今年早些时候,微软首席执行官萨提亚-纳德拉(Satya Nadella)曾表示,微软认为不会出现一个单一、集中的元宇宙,而会有许多元宇宙平台。虽然微软的Teams for Mesh平台做了一些有趣的视频来演示大家听到元宇宙时的反应,但同时微软也在开发真实的“工业元宇宙”平台。
本月下旬微软Build开发者大会的一个重要分会场就是关于“为元宇宙准备”,根据有关描述,该分会场将侧重于企业如何从“元宇宙体验”受益。另外一个分会场是关于物联网如何为“从边缘到元宇宙”的一切提供动力。
一年多来,微软官员一直在不懈地为微软全部的技术堆栈从大热元宇宙的角度找一个合适的定位。微软官员在去年的Build大会上就开始谈论微软的企业元宇宙技术栈。微软官员们当时曾表示,从Azure IoT、Azure Digital Twins和Azure Maps,到Azure Synapse Analytics、Azure AI、Power Platform和HoloLens都是即将到来的“元宇宙应用 ”的基础。
图:微软(2021年5月)
微软在2021年5月的Build大会上公开了旗下由Azure驱动的Mesh混合现实协作平台。微软官员后来在秋季的Ignite大会表示他们计划将Mesh引入Teams,并将在2022年提供Mesh for Teams的预览版,预览版将具有可用于会议和混合的预建沉浸式空间的一系列功能,以后还将提供工具供客户创建自己的定制空间。
纳德拉在微软最近的财报电话会议上称,微软正“引领新工业元宇宙的创新”。他提到,微软在物联网、数字孪生、混合现实应用和“互联空间”(现在是指曾经的“互联商店”的Dynamics 365产品)方面的工作都是工业元宇宙战略的基础。互联空间听起来像是微软会逐步增加的SKU类别,微软还将利用旗下的机器学习、计算机视觉和物联网技术,令客户能够对其物理环境获得更多的洞察力。
微软总经理及Azure物联网合作伙伴Tony Shakib最近在LinkedIn上发了一篇帖子,帖子为微软的企业元宇宙谈话要点增添了更多色彩。物联网和数字孪生技术仍然是微软世界视角的中心。摘录自Shakib的5月7日帖子:
“我们的工业元宇宙是智能云和智能边缘功能结合在一起的集合。二者的基础是Azure物联网,Azure物联网令用户可以连接到物理资产及运行云智能还有Azure数字孪生,并提供了对任何物理或逻辑事物进行建模的能力,物理或逻辑事物可以是简单的设备或产品或复杂的环境。”
全息模拟和能够在花哨虚拟世界中互动的可定制替身肯定是在微软元宇宙路线图里,但能够在边缘物联网、机器学习和数字双胞胎领域做近期产品交付才是微软和合作伙伴可能首先赚钱的地方。我们希望并期待在5月24日的Build大会上能得到更多关于这个工业元宇宙愿景的更新信息。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。