Apple 未来主义的 Vision Pro 头显已经发布一年了,但在这一年中,它仍缺少一些关键功能。现在,Apple 通过 VisionOS 2.4 开始逐步解决这些问题。Apple Intelligence 终于登陆 Vision Pro,同时还增加了一些互联应用以及面向 iPhone 和 iPad 的访客模式功能。
新的操作系统更新可以在今天发布的开发者测试版中进行测试,但正式版本要到 4 月份才会推出。这些新功能我已经期待很久了。
Apple Intelligence 可能是最引人注目的新功能,但目前可能不是最有意义的 - 这波推出的 AI 附加功能并不包括任何像 Google Gemini 将在 Android XR 上展示的那样基于相机的视觉智能多模态功能。但这至少为未来添加更多 AI 功能开了个好头。我更期待的是 Vision Pro 能够更好地与 iPhone 和 iPad 配合使用。虽然不一定完全符合我的期望,但新的应用程序和访客模式功能将为头显提供 Meta Quest 头显多年来就具备的远程访问功能。
Apple Intelligence:文本和图像工具,但尚无视觉智能或新版 Siri
Vision Pro 即将推出的 Apple Intelligence 功能很熟悉,主要是镜像了 Mac、iPhone 和 iPad 上已有的功能。这些功能来得有点晚:我本期待它们去年就能推出。写作工具集成在多个应用程序中,可以用来总结或生成文本。还有消息摘要功能,并可以调用 ChatGPT 获取额外帮助。此外还包括 Apple 的生成式 AI GenMoji (可按需生成表情符号)和 Image Playground (可生成 2D 图像)。目前这些功能都不能在 Vision Pro 上生成任何 3D 内容。而且 Apple 的 AI 驱动的 Memory Movies 功能虽然可以按需生成照片和视频集锦,但目前还不能显示任何 3D "空间"电影或照片。这有点令人失望。
最大的缺失仍然是视觉智能。Apple 在 iPhone 上基于相机的 AI 功能可以通过相机按钮唤起,扫描周围环境并搜索或识别视野中的内容。视觉智能在 Vision Pro 上很有意义,因为它本质上就是一个装满了世界观察相机的巨大可穿戴显示器。但目前还没有视觉智能功能。新版 Siri 也是如此。Apple 改进后的 Siri 应该会包含在 iOS 18.4 中,但这次 OS 更新中 Vision Pro 还不会有这项功能。
与此同时,Google 已经在将多模态相机辅助的 Gemini AI 集成到 Android XR 中,似乎在该操作系统发布之日就能使用。
Apple 今年晚些时候可能还会引入视觉智能。这很可能会在通常于 6 月举行的 Apple WWDC 开发者大会上宣布的 VisionOS 3 中出现。不过,至少 Apple Intelligence 登陆 Vision Pro - 正如 Apple 此前暗示的那样 - 表明当前的硬件能做的事情比 Apple 允许的更多。
Vision Pro 手机应用和远程查看访客模式
我感到沮丧的是 Vision Pro 一直没有与 iPhone 建立良好的工作关系,甚至没有连接。Meta 的 Quest 头显多年来就有手机应用程序,可以浏览和远程下载应用到头显、同步手机通知,并远程控制 Quest 头显,帮助人们演示应用程序,同时你可以在手机屏幕上观看他们的体验。
Apple 通过 VisionOS 2.4 和 iOS 18.4 添加了很多这样的功能。迟来的 Vision Pro iPhone 应用让你可以远程下载应用程序并发现即将登陆 VisionOS 的体验。该应用还将存储有关头显和处方镜片插件的详细信息。据 Apple 称,如果你拥有 Vision Pro,该应用会在 iOS 18.4 上自动出现,也可以从 App Store 下载。
还有一个用于分享头显的新访客模式。Apple 当前的流程很奇怪且笨拙,而且不让你远程观察头显内的情况来提供帮助。新模式在其他人戴上头显时启动,附近的 iPhone 或 iPad 上会有一个按钮来建立连接。它有一个应用选择器,只会让某些电影或应用出现在头显上,并启动 AirPlay 流来观看访客正在做的事情,这样你就可以引导他们。
奇怪的是,新的访客体验并不是从 Vision Pro 应用启动的,而且目前该应用不能远程启动或暂停应用程序,它只是一个被动的 AirPlay 流。但这又是一个开始 - 听起来比 Vision Pro 之前的功能要好得多。
名为 Spatial Gallery 的 3D 视频应用
Apple 还推出了一个有趣的新应用 Spatial Gallery,据描述这是一个精选的 3D 照片和视频展示,这些内容是使用基于 iPhone 的"空间"捕捉格式拍摄的。这个应用似乎是一种在 Vision Pro 上找到其他 3D 内容观看的方式,这很奇怪,因为 Apple 已经在头显中强势但缓慢地展示了其 180 度 3D 沉浸式视频格式。
这可能表明沉浸式视频内容制作遇到了瓶颈。这是一种需要非常特定的高端相机才能拍摄和编辑的昂贵格式。同时,通过 iPhone 或其他相机拍摄的更基础的 3D 视频,以及使用支持空间视频编辑的几个应用程序 (Final Cut Pro、DaVinci Resolve) 进行编辑,似乎 Apple 正在寻求折中方案,以尽快提供更多适用于 Vision Pro 的体验。
理想情况下,未来可能涉及 iPhone 相机开发更好的沉浸式 3D 捕捉格式,以制作更令人印象深刻的 VR 就绪内容。然而,目前的情况是手机具有可接受的 3D 捕捉能力,而高端专业相机则在开发不同层次的技术。我更希望看到 Apple 在实用的沉浸式应用程序方面进行进一步投资,但看起来空间视频将是 Apple 在短期内最容易实现的内容动作。
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
AWorld团队开发的Recon-Act系统采用"侦察-行动"双团队协作模式,通过工具中心的自我进化机制实现智能浏览器操作。系统在VisualWebArena测试中达到36.48%成功率,超越现有自动化方案。其创新性在于将信息收集与任务执行分离,通过对比成功失败案例自动生成专用工具,为未来智能浏览器助手发展提供了新思路。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
中科院团队提出QuantVGGT技术,首次解决大规模3D重建AI模型的部署难题。通过双重平滑精细量化和噪声过滤多样化采样两项核心技术,成功将12亿参数的VGGT模型压缩75%体积、提升2.5倍速度,同时保持98%原始性能。实验结果显示该方法在相机位置估计和点云地图生成任务上均显著优于现有量化技术,为3D AI技术的产业化普及提供了重要突破。