Nvidia 正在更新其 Windows 平台上的 G-Assist AI 助手,将其功能从优化游戏和系统设置扩展到更多应用。G-Assist 上个月作为主要致力于提升 PC 游戏体验的聊天机器人首次推出,而如今它加入了插件支持,让你可以让这个 AI 助手控制 Spotify、检查 Twitch 上某个主播是否正在直播,以及查看股票或天气更新。
全新基于 ChatGPT 的 G-Assist 插件构建器允许开发者和爱好者为 Nvidia 的 AI 助手创建自定义功能。G-Assist 将能够连接到外部工具并使用 API 来扩展目前 Nvidia 提供的功能。
Nvidia 已在 GitHub 上发布了示例插件,供编译后由 G-Assist 使用:
Spotify — 免提音乐播放和音量控制
Google Gemini — 允许 G-Assist 调用 Gemini 进行云端复杂对话
Twitch — 你可以使用此插件通过语音命令检查某位主播是否正在直播,例如命令:“嘿, Twitch, [主播] 正在直播吗?”
外围设备控制 — 调整 Logitech G、Corsair、MSI 和 Nanoleaf 设备的 RGB 灯光或风扇速度
股票查询 — 提供实时股票价格
天气更新 — 提供任意城市的当前天气状况
这些插件全部在本地运行,借助 Nvidia RTX GPU 上的小型语言模型,同时开发者还可以通过 GitHub 分享他们自己定制的插件。G-Assist 使用的本地小型语言模型需要近 10GB 空间来支持其助手功能和语音能力。该 AI 助手适用于多种 RTX 30、40 和 50 系列桌面 GPU,但你需要至少一块拥有 12GB VRAM 的显卡。
如果你有兴趣试用 G-Assist 或构建插件,该应用作为 Nvidia Windows 主应用的一个可选组件提供。
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。