据报道,谷歌正在开发一系列生成式AI功能,可以执行提供生活建议和制定预算等任务。
《纽约时报》援引谷歌的内部文件进行了报道,据报道称,该计划由搜索巨头谷歌的人工智能研究小组Google DeepMind领导。该团队成立于今年4月,此前谷歌合并了两个早期的人工智能团队DeepMind和Google Brain。
据报道,谷歌的工程师们正在研究至少21种不同的生成式AI功能,主要亮点功能之一就是可以提供有关“人们生活中各项挑战”的建议。《纽约时报》获得的信息提示表明,该功能可以处理包含多行文本的复杂用户查询。
据称,去年12月谷歌的人工智能安全专家警告称,机器生成的生活建议可能会对用户产生负面影响。据《泰晤士报》报道,目前尚不确定谷歌是否会推出该功能以及该报道中详细介绍到的其他生成式AI功能。
预计这些AI功能将专注于各种用例。其中一项正在开发中的功能被描述为基于AI的辅导员,而另一项功能则旨在帮助用户创建个人预算等规划文档。据称,作为该计划的一部分,谷歌DeepMind还将开发“创意创造功能”。
据报道,谷歌在和资金雄厚的AI初创公司Scale AI合作开发。Scale AI销售的工具可供公司用来创建训练数据集并将大型语言模型集成到其软件中。Scale AI公司在2021年初完成一轮融资后估值达到了73亿美金。
根据这次的报道,Scale AI已经组建了多个团队来帮助谷歌测试其新的AI功能。而且据报道称,这些团队除了其他工作人员外,还包括100多名拥有博士学位的专家。
谷歌DeepMind在今天的一份声明中表示:“我们长期以来一直与各种合作伙伴展开合作,评估我们在谷歌的研究和产品,这是构建安全的、有用的技术的关键一步。任何时候都会有很多这样的评估正在进行之中。评估数据的孤立样本并不能代表我们的产品路线图。”
谷歌还在同时推进许多其他生成式AI方面的计划。
本周早些时候有报道称,谷歌正在构建一个名为Gemini的大型语言模型组合。据报道,这些模型能够生成文本和图像,预计将于今年秋季推出,而且将以新聊天机器人的形式或者作为谷歌现有Bard AI助手的升级版向用户推出。
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。