Apple 未来主义的 Vision Pro 头显已经发布一年了,但在这一年中,它仍缺少一些关键功能。现在,Apple 通过 VisionOS 2.4 开始逐步解决这些问题。Apple Intelligence 终于登陆 Vision Pro,同时还增加了一些互联应用以及面向 iPhone 和 iPad 的访客模式功能。
新的操作系统更新可以在今天发布的开发者测试版中进行测试,但正式版本要到 4 月份才会推出。这些新功能我已经期待很久了。
Apple Intelligence 可能是最引人注目的新功能,但目前可能不是最有意义的 - 这波推出的 AI 附加功能并不包括任何像 Google Gemini 将在 Android XR 上展示的那样基于相机的视觉智能多模态功能。但这至少为未来添加更多 AI 功能开了个好头。我更期待的是 Vision Pro 能够更好地与 iPhone 和 iPad 配合使用。虽然不一定完全符合我的期望,但新的应用程序和访客模式功能将为头显提供 Meta Quest 头显多年来就具备的远程访问功能。
Apple Intelligence:文本和图像工具,但尚无视觉智能或新版 Siri
Vision Pro 即将推出的 Apple Intelligence 功能很熟悉,主要是镜像了 Mac、iPhone 和 iPad 上已有的功能。这些功能来得有点晚:我本期待它们去年就能推出。写作工具集成在多个应用程序中,可以用来总结或生成文本。还有消息摘要功能,并可以调用 ChatGPT 获取额外帮助。此外还包括 Apple 的生成式 AI GenMoji (可按需生成表情符号)和 Image Playground (可生成 2D 图像)。目前这些功能都不能在 Vision Pro 上生成任何 3D 内容。而且 Apple 的 AI 驱动的 Memory Movies 功能虽然可以按需生成照片和视频集锦,但目前还不能显示任何 3D "空间"电影或照片。这有点令人失望。
最大的缺失仍然是视觉智能。Apple 在 iPhone 上基于相机的 AI 功能可以通过相机按钮唤起,扫描周围环境并搜索或识别视野中的内容。视觉智能在 Vision Pro 上很有意义,因为它本质上就是一个装满了世界观察相机的巨大可穿戴显示器。但目前还没有视觉智能功能。新版 Siri 也是如此。Apple 改进后的 Siri 应该会包含在 iOS 18.4 中,但这次 OS 更新中 Vision Pro 还不会有这项功能。
与此同时,Google 已经在将多模态相机辅助的 Gemini AI 集成到 Android XR 中,似乎在该操作系统发布之日就能使用。
Apple 今年晚些时候可能还会引入视觉智能。这很可能会在通常于 6 月举行的 Apple WWDC 开发者大会上宣布的 VisionOS 3 中出现。不过,至少 Apple Intelligence 登陆 Vision Pro - 正如 Apple 此前暗示的那样 - 表明当前的硬件能做的事情比 Apple 允许的更多。
Vision Pro 手机应用和远程查看访客模式
我感到沮丧的是 Vision Pro 一直没有与 iPhone 建立良好的工作关系,甚至没有连接。Meta 的 Quest 头显多年来就有手机应用程序,可以浏览和远程下载应用到头显、同步手机通知,并远程控制 Quest 头显,帮助人们演示应用程序,同时你可以在手机屏幕上观看他们的体验。
Apple 通过 VisionOS 2.4 和 iOS 18.4 添加了很多这样的功能。迟来的 Vision Pro iPhone 应用让你可以远程下载应用程序并发现即将登陆 VisionOS 的体验。该应用还将存储有关头显和处方镜片插件的详细信息。据 Apple 称,如果你拥有 Vision Pro,该应用会在 iOS 18.4 上自动出现,也可以从 App Store 下载。
还有一个用于分享头显的新访客模式。Apple 当前的流程很奇怪且笨拙,而且不让你远程观察头显内的情况来提供帮助。新模式在其他人戴上头显时启动,附近的 iPhone 或 iPad 上会有一个按钮来建立连接。它有一个应用选择器,只会让某些电影或应用出现在头显上,并启动 AirPlay 流来观看访客正在做的事情,这样你就可以引导他们。
奇怪的是,新的访客体验并不是从 Vision Pro 应用启动的,而且目前该应用不能远程启动或暂停应用程序,它只是一个被动的 AirPlay 流。但这又是一个开始 - 听起来比 Vision Pro 之前的功能要好得多。
名为 Spatial Gallery 的 3D 视频应用
Apple 还推出了一个有趣的新应用 Spatial Gallery,据描述这是一个精选的 3D 照片和视频展示,这些内容是使用基于 iPhone 的"空间"捕捉格式拍摄的。这个应用似乎是一种在 Vision Pro 上找到其他 3D 内容观看的方式,这很奇怪,因为 Apple 已经在头显中强势但缓慢地展示了其 180 度 3D 沉浸式视频格式。
这可能表明沉浸式视频内容制作遇到了瓶颈。这是一种需要非常特定的高端相机才能拍摄和编辑的昂贵格式。同时,通过 iPhone 或其他相机拍摄的更基础的 3D 视频,以及使用支持空间视频编辑的几个应用程序 (Final Cut Pro、DaVinci Resolve) 进行编辑,似乎 Apple 正在寻求折中方案,以尽快提供更多适用于 Vision Pro 的体验。
理想情况下,未来可能涉及 iPhone 相机开发更好的沉浸式 3D 捕捉格式,以制作更令人印象深刻的 VR 就绪内容。然而,目前的情况是手机具有可接受的 3D 捕捉能力,而高端专业相机则在开发不同层次的技术。我更希望看到 Apple 在实用的沉浸式应用程序方面进行进一步投资,但看起来空间视频将是 Apple 在短期内最容易实现的内容动作。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。