谷歌正在向全球更多开发者推出其 Gemini 2.0 Flash AI 模型的最新"实验性"功能,人们发现它具有一些令人担忧的能力,包括从照片中删除水印。
该公司的轻量级本地设备 AI 模型现在配备了原生图像生成功能,不仅可以根据文字提示生成图片,还可以让用户以对话方式编辑图片。据 TechCrunch 报道,在周末期间,用户们发现它还能精确地移除水印。
像 Watermark Remover.io 这样的工具已经可以清除来自 Shutterstock 等公司的水印,而谷歌的一个研究团队在 2017 年就开发了一个水印移除算法,以强调需要更安全的保护措施。相反,一些 AI 工具(如 OpenAI 的 GPT-4)会拒绝移除水印的请求。
然而,Gemini 2.0 Flash 似乎在移除复杂水印(如 Getty Images 标记)并填充图像方面表现得比其他选择更好。在移除水印后,它会添加一个 SynthID 标记,实际上是用"AI 编辑"标记替换了版权标记。但正如我们之前在三星的对象擦除工具中看到的那样,使用 AI 也可以移除 AI 标记。
用户还注意到,Gemini 2.0 Flash 显然可以将真实人物(如 Elon Musk)的可识别图像添加到照片中,这是完整版 Gemini 模型所不允许的。
目前,Flash 的最新图像功能仅通过 AI Studio 向开发者开放——因此其明显缺乏保护机制的特性并未对所有人开放使用(或滥用)。我们已经询问谷歌是否有相关保护措施来阻止水印移除等行为,但尚未收到回复。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。