至顶网软件与服务频道消息:IBM已经与麻省理工学院的研究人员合作开发了一种新方法,可以更有效地训练“视频识别”深度学习模型。
深度学习是机器学习的一个分支,旨在复制人脑解决问题的方式,已经在语言翻译、图像和语音识别等领域引发了重大颠覆。
视频识别类似于图像分类,深度学习模型会尝试识别视频中的一切,包括所看到的对象和人物,他们在做什么等等。两者之间的主要区别在于,视频相比简单的静态图像具有更多的运动部分,因此训练深度学习模型来理解视频内容要花费更多的时间和精力。
麻省理工学院在今天的一篇博客文章中解释说:“据估计,训练视频识别模型所需要的数据比训练图像分类模型最多可多出50倍,处理能力则是其8倍。”
当然,没有人喜欢为这种任务投入大量的计算资源,因为成本是极高的。此外,这种任务对资源的要求,使其几乎无法在低功率移动设备上运行视频识别模型。
这些问题促使麻省理工学院电气工程与计算机科学系助理教授Song Han领导的研究团队提出了一种更为有效的视频识别训练模型,这项新技术极大地减少了视频识别模型的大小,从而缩短了训练时间并提高了移动设备的性能。
“我们的目标是让使用低功耗设备的任何人都可以使用AI。要做到这一点,我们就需要设计出一种高效的AI模型,这种模型能耗低,且可以在边缘设备上平稳运行。”
图像分类模型通过在图像像素中查找图案来建立工作模式,以构建它们看到的内容呈现。在有足够示例的情况下,该模型可以学习识别人、物体及其之间的关联方式。
视频识别的方式类似,但是深度学习模型更进了一步,使用“三维卷积”在一系列图像(视频帧)编码时间,从而使得模型更大、计算更密集。为了减少计算量,Han和他的同事设计出了一种“时间偏移模块”,该模块将选定视频帧的特征映像移动到相邻的帧,通过混合过去、现在和未来的空间呈现,模型无需明确呈现即可实现时间流逝感。
这项新技术让基于Something-Something视频数据集(一系列密集标记的视频剪辑集合,呈现了人类对日常事务执行所预设的基本动作)的模型训练速度比现有模型快了3倍。
该模型甚至可以实时理解人们的动作,并且能耗很低,例如该模型让摄像头上安装的单板计算机立即对手势进行分类,能耗相当于自行车灯的电量。
Constellation Research首席分析师、副总裁Holger Mueller表示,机器学习仍处于发展早期阶段,采用这种创新方法所能获得的收益也是如此。“今天MIT和IBM合作加速视频识别技术的发展,而这正是目前难度最大的机器学习任务之一。”
IBM和MIT表示,这种新的视频识别模型可以在运用于各个领域,例如可以加快在YouTube或类似服务上分类视频的速度,还可以使医院在本地而不是在云中运行AI应用,从而使机密数据更安全。
好文章,需要你的鼓励
传统数据工程面临数据质量差、治理不善等挑战,成为AI项目的最大障碍。多智能体AI系统通过协作方式正在彻底改变数据准备、治理和应用模式。Google Cloud基于Gemini大语言模型构建协作生态系统,让不同智能体专门负责数据工程、科学、治理和分析等任务。系统通过分层架构理解组织环境,自主学习历史工作流程,能够预防问题并自动处理重复性任务,大幅提升效率。
中科大团队开发出LongAnimation系统,解决了长动画自动上色中的色彩一致性难题。该系统采用动态全局-局部记忆机制,能够为平均500帧的动画进行稳定上色,性能比现有方法提升35-58%。核心创新包括SketchDiT特征提取器、智能记忆模块和色彩优化机制,可大幅提升动画制作效率。
微软推出Copilot调优功能,让企业通过低代码工具利用自动化微调技术训练企业数据。与基于公开数据的通用AI模型不同,企业需要理解内部数据和流程的专业化模型。Gartner预测专业化GenAI模型市场将在2026年翻倍至25亿美元。这些模型通常基于开源模型构建,部署为小语言模型,提供更好的成本控制和数据安全性,同时更易符合欧盟AI法案要求。
南开大学团队开发出DepthAnything-AC模型,解决了现有AI距离估算系统在恶劣天气和复杂光照条件下性能下降的问题。通过创新的扰动一致性训练框架和空间距离约束机制,该模型仅用54万张图片就实现了在雨雪、雾霾、夜晚等复杂环境下的稳定距离判断,同时保持正常条件下的优秀性能,为自动驾驶和机器人导航等应用提供了重要技术支撑。