至顶网软件频道消息:从Facebook的“AI能够发明自己的语言”误报到微软公司令人诧异的种族主义聊天机器人,在过去的几年时间里,我们目睹了几起表现糟糕的人工智能使用案例。尽管了解AI行为的初衷并非一桩易事,但谷歌公司的DeepMind认为其已经为这一难题提供了解决方案,那就是:心理学。
今天,DeepMind宣布其能够用已经发布的Psychlab——一套开源代码AI平台——研究AI的行为表现,而其所采用的研究方式则与目前心理学家研究人类行为表现的方法类似。
由DeepMind实验室构建的Psychlab采用了模拟的3D环境以在不同的空间任务中训练并测试AI,而这些环境在以AI代理作为主要测试对象的同时也允许Psychlab重建真实世界的心理学实验。
DeepMind团队的研究员Joel Leibo在一篇博客中解释称:“一般来讲,这类测试过程会要求参与者坐在电脑显示器前且用鼠标回应屏幕上显示出的任务。类似的,我们所构建的环境允许虚拟主体在虚拟计算机显示器上执行任务,并将其所注视的方向作为其对于测试任务的回应结果。显然,这需要人类与人工智能代理双方都进行相同的测试,从而最大限度地减少实验差异性,而这也促使其能够更容易地与已有的认知心理学文献建立联系并从中获取一定见解。”
DeepMind方面发布了八项通过Psychlab测试人工智能不同认知能力的经典心理学实验。具体包括:
• 视觉搜索——测试其搜寻目标对象阵列的能力(图片)
• 持续识别——测试其对于增长型项目的记忆能力
• 任意的视觉运动映射——测试其对于刺激-响应配对的再次调动能力
• 变更检测——测试其就对象阵列再次出现延迟后,检测一系列变更设置的能力
• 视力与对比敏感度——测试其对微小且低对比度刺激的识别能力
• 玻璃模型检测——测试其球形感知能力
• 随机点运动判别——测试其感知相干运动的能力
• 多对象追踪——测试其长时间追踪动态对象的能力
Leibo表示由于Psychlab拥有一个“灵活且方便运用的API”,所以研究人员能够在该平台上创建并分享他们自己的实验。除此之外,DeepMind还发布了Psychlab的源代码。对此,Leibo解释是因为谷歌公司希望“更多的研究团队能够在其研究中使用Psychlab,而这也有助于该平台的进一步完善。”
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。