Apple 未来主义的 Vision Pro 头显已经发布一年了,但在这一年中,它仍缺少一些关键功能。现在,Apple 通过 VisionOS 2.4 开始逐步解决这些问题。Apple Intelligence 终于登陆 Vision Pro,同时还增加了一些互联应用以及面向 iPhone 和 iPad 的访客模式功能。
新的操作系统更新可以在今天发布的开发者测试版中进行测试,但正式版本要到 4 月份才会推出。这些新功能我已经期待很久了。
Apple Intelligence 可能是最引人注目的新功能,但目前可能不是最有意义的 - 这波推出的 AI 附加功能并不包括任何像 Google Gemini 将在 Android XR 上展示的那样基于相机的视觉智能多模态功能。但这至少为未来添加更多 AI 功能开了个好头。我更期待的是 Vision Pro 能够更好地与 iPhone 和 iPad 配合使用。虽然不一定完全符合我的期望,但新的应用程序和访客模式功能将为头显提供 Meta Quest 头显多年来就具备的远程访问功能。
Apple Intelligence:文本和图像工具,但尚无视觉智能或新版 Siri
Vision Pro 即将推出的 Apple Intelligence 功能很熟悉,主要是镜像了 Mac、iPhone 和 iPad 上已有的功能。这些功能来得有点晚:我本期待它们去年就能推出。写作工具集成在多个应用程序中,可以用来总结或生成文本。还有消息摘要功能,并可以调用 ChatGPT 获取额外帮助。此外还包括 Apple 的生成式 AI GenMoji (可按需生成表情符号)和 Image Playground (可生成 2D 图像)。目前这些功能都不能在 Vision Pro 上生成任何 3D 内容。而且 Apple 的 AI 驱动的 Memory Movies 功能虽然可以按需生成照片和视频集锦,但目前还不能显示任何 3D "空间"电影或照片。这有点令人失望。
最大的缺失仍然是视觉智能。Apple 在 iPhone 上基于相机的 AI 功能可以通过相机按钮唤起,扫描周围环境并搜索或识别视野中的内容。视觉智能在 Vision Pro 上很有意义,因为它本质上就是一个装满了世界观察相机的巨大可穿戴显示器。但目前还没有视觉智能功能。新版 Siri 也是如此。Apple 改进后的 Siri 应该会包含在 iOS 18.4 中,但这次 OS 更新中 Vision Pro 还不会有这项功能。
与此同时,Google 已经在将多模态相机辅助的 Gemini AI 集成到 Android XR 中,似乎在该操作系统发布之日就能使用。
Apple 今年晚些时候可能还会引入视觉智能。这很可能会在通常于 6 月举行的 Apple WWDC 开发者大会上宣布的 VisionOS 3 中出现。不过,至少 Apple Intelligence 登陆 Vision Pro - 正如 Apple 此前暗示的那样 - 表明当前的硬件能做的事情比 Apple 允许的更多。
Vision Pro 手机应用和远程查看访客模式
我感到沮丧的是 Vision Pro 一直没有与 iPhone 建立良好的工作关系,甚至没有连接。Meta 的 Quest 头显多年来就有手机应用程序,可以浏览和远程下载应用到头显、同步手机通知,并远程控制 Quest 头显,帮助人们演示应用程序,同时你可以在手机屏幕上观看他们的体验。
Apple 通过 VisionOS 2.4 和 iOS 18.4 添加了很多这样的功能。迟来的 Vision Pro iPhone 应用让你可以远程下载应用程序并发现即将登陆 VisionOS 的体验。该应用还将存储有关头显和处方镜片插件的详细信息。据 Apple 称,如果你拥有 Vision Pro,该应用会在 iOS 18.4 上自动出现,也可以从 App Store 下载。
还有一个用于分享头显的新访客模式。Apple 当前的流程很奇怪且笨拙,而且不让你远程观察头显内的情况来提供帮助。新模式在其他人戴上头显时启动,附近的 iPhone 或 iPad 上会有一个按钮来建立连接。它有一个应用选择器,只会让某些电影或应用出现在头显上,并启动 AirPlay 流来观看访客正在做的事情,这样你就可以引导他们。
奇怪的是,新的访客体验并不是从 Vision Pro 应用启动的,而且目前该应用不能远程启动或暂停应用程序,它只是一个被动的 AirPlay 流。但这又是一个开始 - 听起来比 Vision Pro 之前的功能要好得多。
名为 Spatial Gallery 的 3D 视频应用
Apple 还推出了一个有趣的新应用 Spatial Gallery,据描述这是一个精选的 3D 照片和视频展示,这些内容是使用基于 iPhone 的"空间"捕捉格式拍摄的。这个应用似乎是一种在 Vision Pro 上找到其他 3D 内容观看的方式,这很奇怪,因为 Apple 已经在头显中强势但缓慢地展示了其 180 度 3D 沉浸式视频格式。
这可能表明沉浸式视频内容制作遇到了瓶颈。这是一种需要非常特定的高端相机才能拍摄和编辑的昂贵格式。同时,通过 iPhone 或其他相机拍摄的更基础的 3D 视频,以及使用支持空间视频编辑的几个应用程序 (Final Cut Pro、DaVinci Resolve) 进行编辑,似乎 Apple 正在寻求折中方案,以尽快提供更多适用于 Vision Pro 的体验。
理想情况下,未来可能涉及 iPhone 相机开发更好的沉浸式 3D 捕捉格式,以制作更令人印象深刻的 VR 就绪内容。然而,目前的情况是手机具有可接受的 3D 捕捉能力,而高端专业相机则在开发不同层次的技术。我更希望看到 Apple 在实用的沉浸式应用程序方面进行进一步投资,但看起来空间视频将是 Apple 在短期内最容易实现的内容动作。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。