ZD至顶网软件频道消息: IBM和麻省理工学院宣布达成一项联合研究合作关系,旨在创造能够像人类一样理解音频和视频数据的人工智能技术。
在高层方面,IBM Research和麻省理工学院人脑和认知科学专业正在创建IBM-MIT实验室,用于研究Brain-inspired Multimedia Machine Comprehension's (BM3C)。
这样,研究人员将致力于开发可以克服周围模式识别和预测方法中诸多技术挑战的认知计算系统。
IBM解释说,人类可以观看一个会议的短视频,轻松地描述视频中发生的事情,甚至预测可能的后续事件。对于机器来说,目前是不可能具备这种能力的。
然而,未来这是有可能的,具备机器视觉功能的高级认知计算系统能够以计算机的视角详细地呈现整个世界,IBM称这种能力将被用于医疗、教育和娱乐行业的各种应用中。
“在这个世界中人类和机器正在以不可思议的方式越来越多地进行协作,在机器视觉方面取得的突破 有可能帮助我们更健康、更富有成效地生活,”IBM研究院认知计算副总裁Guru Banavar表示。“人脑研究人员与计算机科学家合作解决这种复杂的技术挑战,让我们通过与麻省理工学院的合作实现最先进的人工智能。”
这次IBM与麻省理工学院的合作与其他围绕机器学习的合作是类似的。在一篇博客文章 中,Banavar解释说,很多这样的合作将不断完善Cognitive Horizons Network,实际上是多所高校与IBM合作不断提升认知计算——通常这是通过IBM Watson实现的。
Banavar提出,IBM正在“负责任地”监控目前手头上正在进行的所有认知计算研究。换句话说,没有必要担心未来潜在的人工智能起义的情况。至少目前还没有。
“在IBM,我们认识到来自认知计算和人工智能的好处都是需要以信任为前提的,”Banavar这样写到。“我们正在构建一个最佳实践系统,可以帮助知道安全、符合道德管理的人工智能系统,包括符合社会规范和价值取向。”
好文章,需要你的鼓励
尽管2026年智能手机外观可能变化不大,但内部技术正发生飞跃式进步。AI原生处理器、新型连接技术和先进显示系统正将日常设备转变为具备企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机决定了他们如何访问数据、协作办公、管理工作流程和使用数字服务。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。
《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。
清华大学研究团队提出3DThinker框架,首次让AI具备类似人类的三维空间想象能力。该系统在推理过程中插入特殊的三维想象符号,不依赖外部工具或大量标注数据,就能从有限的二维图像中构建三维心理模型。在多个空间推理基准测试中,3DThinker相比传统方法性能提升达50-100%,为自动驾驶、机器人导航、虚拟现实等领域的AI应用开辟了新路径。