ZD至顶网软件频道消息: IBM和麻省理工学院宣布达成一项联合研究合作关系,旨在创造能够像人类一样理解音频和视频数据的人工智能技术。
在高层方面,IBM Research和麻省理工学院人脑和认知科学专业正在创建IBM-MIT实验室,用于研究Brain-inspired Multimedia Machine Comprehension's (BM3C)。
这样,研究人员将致力于开发可以克服周围模式识别和预测方法中诸多技术挑战的认知计算系统。
IBM解释说,人类可以观看一个会议的短视频,轻松地描述视频中发生的事情,甚至预测可能的后续事件。对于机器来说,目前是不可能具备这种能力的。
然而,未来这是有可能的,具备机器视觉功能的高级认知计算系统能够以计算机的视角详细地呈现整个世界,IBM称这种能力将被用于医疗、教育和娱乐行业的各种应用中。
“在这个世界中人类和机器正在以不可思议的方式越来越多地进行协作,在机器视觉方面取得的突破 有可能帮助我们更健康、更富有成效地生活,”IBM研究院认知计算副总裁Guru Banavar表示。“人脑研究人员与计算机科学家合作解决这种复杂的技术挑战,让我们通过与麻省理工学院的合作实现最先进的人工智能。”
这次IBM与麻省理工学院的合作与其他围绕机器学习的合作是类似的。在一篇博客文章 中,Banavar解释说,很多这样的合作将不断完善Cognitive Horizons Network,实际上是多所高校与IBM合作不断提升认知计算——通常这是通过IBM Watson实现的。
Banavar提出,IBM正在“负责任地”监控目前手头上正在进行的所有认知计算研究。换句话说,没有必要担心未来潜在的人工智能起义的情况。至少目前还没有。
“在IBM,我们认识到来自认知计算和人工智能的好处都是需要以信任为前提的,”Banavar这样写到。“我们正在构建一个最佳实践系统,可以帮助知道安全、符合道德管理的人工智能系统,包括符合社会规范和价值取向。”
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。