ZD至顶网软件频道消息: IBM和麻省理工学院宣布达成一项联合研究合作关系,旨在创造能够像人类一样理解音频和视频数据的人工智能技术。
在高层方面,IBM Research和麻省理工学院人脑和认知科学专业正在创建IBM-MIT实验室,用于研究Brain-inspired Multimedia Machine Comprehension's (BM3C)。
这样,研究人员将致力于开发可以克服周围模式识别和预测方法中诸多技术挑战的认知计算系统。
IBM解释说,人类可以观看一个会议的短视频,轻松地描述视频中发生的事情,甚至预测可能的后续事件。对于机器来说,目前是不可能具备这种能力的。
然而,未来这是有可能的,具备机器视觉功能的高级认知计算系统能够以计算机的视角详细地呈现整个世界,IBM称这种能力将被用于医疗、教育和娱乐行业的各种应用中。
“在这个世界中人类和机器正在以不可思议的方式越来越多地进行协作,在机器视觉方面取得的突破 有可能帮助我们更健康、更富有成效地生活,”IBM研究院认知计算副总裁Guru Banavar表示。“人脑研究人员与计算机科学家合作解决这种复杂的技术挑战,让我们通过与麻省理工学院的合作实现最先进的人工智能。”
这次IBM与麻省理工学院的合作与其他围绕机器学习的合作是类似的。在一篇博客文章 中,Banavar解释说,很多这样的合作将不断完善Cognitive Horizons Network,实际上是多所高校与IBM合作不断提升认知计算——通常这是通过IBM Watson实现的。
Banavar提出,IBM正在“负责任地”监控目前手头上正在进行的所有认知计算研究。换句话说,没有必要担心未来潜在的人工智能起义的情况。至少目前还没有。
“在IBM,我们认识到来自认知计算和人工智能的好处都是需要以信任为前提的,”Banavar这样写到。“我们正在构建一个最佳实践系统,可以帮助知道安全、符合道德管理的人工智能系统,包括符合社会规范和价值取向。”
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。