谷歌对其推出近三个月的搜索生成体验(SGE)进行了更新,这是谷歌在搜索中由人工智能驱动的对话模式,目的在于帮助用户更好地学习和理解网上的信息。这些功能包括查看不熟悉术语定义的工具、有助于提高跨语言理解和编码信息的工具,以及让用户在浏览时利用 SGE 的其他有趣的功能。
谷歌解释说,这些改进能帮助人们更好地理解复杂的概念或复杂的主题,提高他们的编码技能等。
其中一项新功能将允许用户将鼠标悬停在某些单词上以预览其定义并查看与该主题相关的图像或图表,然后可以点击它们以了解更多信息。此功能将在 Google 的 AI 生成的针对某些主题(例如 STEM、经济、历史等)或问题的响应中提供,用户也可能会遇到不理解的术语或想要更深入了解的概念。
Bing Chat 也提供了与此类似的功能,通过突出显示页面上的相关文本,从选项菜单中选择 Bing 进行对话,在对话中用户可以了解有关该主题的更多信息。
另一个新功能将帮助那些使用 SGE 进行编程的人。谷歌表示,新功能将让理解和调试生成的代码变得更加容易。
目前,SGE 提供人工智能生成的概述,帮助完成与编程语言和工具相关的任务。帮助用户找到问题的答案或查看生成的代码片段。新的更新现在将使用语法突出显示对代码段进行颜色区别,从而更容易识别关键字、注释和字符串等不同元素。
浏览时的 SGE 可能是最有趣的新功能,但目前它只是搜索实验室的早期实验,可在 Android 和 iOS 版 Google 应用程序以及更高版本的桌面版 Chrome 上使用。
该功能能帮助用户与发布商和创作者提供的长文本内容互动,从而更轻松地找到他们想要的内容。
例如,在某些网页上,用户可以点击查看人工智能生成的文章要点列表,其中包含可直接转到您要查找的部分的链接。
该页面还将包括一个“在页面上浏览”的选项,用户可以在其中查看文章回答的问题,然后跳转到相关部分。
此功能让人想起现有的内容突出显示搜索功能,当您搜索特定术语并找到匹配结果时,该功能会跳转到相关文本。然而,这次它是由人工智能生成的。
竞争对手Bing Chat 也提供了类似的功能,让用户在在线阅读文章或文档时点击 Bing Chat 图标,并要求 Chat 生成总结内容 ——因此这成了 Google 的追赶点。
谷歌指出,此功能不会为付费文章提供人工智能摘要,出版商可以通过在帮助中心将其内容指定为付费文章来选择阻止该功能。
谷歌和必应并不是唯一考虑如何使用人工智能来总结文章内容的公司。Instagram 创始人开发的新闻阅读应用 Artifact自 2023 年 4 月更新起也开始提供人工智能摘要功能。
浏览时的 SGE 可作为搜索实验室中的独立实验,并将自动向已选择加入 SGE 的用户推出。
这些功能是继 SGE 的其他新增功能之后推出的,其中包括本月早些时候推出的一项功能,该功能可显示与用户搜索查询相关的视频和图像。
搜索实验室可通过 Android 和 iOS 上的 Google 应用程序以及桌面上的 Chrome 进行访问。
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。