谷歌在 Android 平台上的 Circle to Search 功能允许用户通过绘画、高亮或点击屏幕上的对象来进行搜索。现在,iPhone 用户也可以通过 Google Lens 使用类似的功能。
虽然 Circle to Search 在 Android 上可以全系统使用,但 Google Lens 在 iPhone 上只能在 Chrome 和 Google 应用内使用,不过功能基本相同。
当你在 Chrome 或 Google 应用中看到感兴趣的对象时,比如一栋建筑或一双鞋,你可以快速使用手势来搜索屏幕上的内容,并通过网络搜索或 AI 概览获取更多信息。在此之前,iOS 用户只能通过截图并上传到 Google 来搜索屏幕内容,而这个新方法显然更快捷方便。
如何在 iOS 上的 Google 和 Chrome 中使用 Google Lens:
当你在 Google 应用中看到想了解更多的对象时,点击三点菜单,然后选择"使用 Google Lens 搜索屏幕"或"搜索此屏幕"。屏幕会出现闪烁效果,顶部显示 Google Lens。
你可以使用最习惯的手势:在对象周围画圈、点击对象或高亮文本。完成后,底部会出现一个网络搜索窗口,显示你刚才搜索内容的相关信息和视觉匹配结果。
如果你想添加更多上下文来优化搜索结果,可以在显示"添加到搜索"的搜索栏中输入。例如,如果你使用 Circle to Search 高亮一个披萨来寻找食谱,你可以添加"素食食谱"来细化搜索。
除此之外,谷歌即将让 iPhone 用户能够在 Google 搜索中使用相机图标拍照,并获得 AI 概览,以快速了解你所看到的任何物体,无论是汽车、建筑还是雕像。本周,AI 概览功能将在 Android 和 iOS 的 Google 应用中推出,并很快将登陆 Chrome 移动端和桌面端。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。