近日,大规模视频分类比赛ACM MM LSVC公布了本年度最佳成绩,阿里巴巴iDST团队凭借平均准确率87.41%夺得冠军。
ACM MM是全球顶级的机器视觉会议,LSVC作为ACM MM的重要一部分,全称为Large-Scale Video Classification Challenge,主要考验参赛队伍在大规模视频分类算法方面的能力。
比赛数据集包含了来自Youtube的大约16万的视频,一共8000个小时。需要参赛队伍对视频中的500类内容做出识别,包含社会事件(如:橄榄球比赛)、物体(如:熊猫)、场景(如海滩)、动作(如:制作蛋糕)。
视频分类算法涉及到非常多的技术,包括视频帧特征提取(frame feature extraction)、视频帧特征集成(frame feature aggregation)、多模态的视频信息提取(视频画面、语音、物体运动、场景等模态)等方面。
iDST官网上的“视频标签预测”DEMO
阿里巴巴iDST团队采用了inception-resnet-v2 和 Squeeze-and-Excitation Networks 对视频帧特征进行提取,并且采用NetVLAD对提取到的视频帧特征进行集成。结合多模态信息的融合之后,单模型在验证集上的平均准确率达到了84.85%,融合多模型达到87.41%。
此外,大规模的视频处理能力也是比赛考验的重要方面。阿里巴巴iDST拥有一个强大的视频分析平台,可处理来自优酷土豆的百万量级的视频。这为高效地对LSVC数据集提取特征进行实验提供了帮助。
据阿里巴巴iDST视频算法高级专家刘扬介绍,这些视频分析算法目前已应用在包括优酷、土豆、UC、闲鱼等在内的多个业务中,有效改善了用户在视频搜索、推荐、编辑等方面的体验。“我们正在将这样的能力集成到阿里云ET上对外服务”。
作为阿里巴巴对外技术输出的窗口,阿里云目前提供了从计算能力、开发框架、基础AI能力到行业全局智能在内的整套服务。
iDST全称Institute of Data Science & Technologies,是阿里巴巴内部的尖端研究机构,专注于AI领域的前沿性研究。由金榕、任小枫、华先胜、司罗等知名科学家领导。在ACM MM中,阿里巴巴亦有三篇论文入选。
好文章,需要你的鼓励
在多年实践与技术演进的双重推动下,紫鸾5.0应运而生,全面拥抱云原生、大数据和大模型等技术升级,通过不断创新、升级云产品与定制化的云服务,助力政企客户更好地应对当前和未来的挑战。
Luga继续探讨云原生网关Traefik及Kubernetes入口网络技术,解析Kubernetes网络需求、Pod隔离、跨节点访问、ClusterIP、NodePort服务等概念。Traefik作为Kubernetes Ingress控制器,提供易用性、自动化服务发现、动态负载均衡、中间件生态和安全保障。私有云中,MetalLB作为裸机Kubernetes的负载均衡器实现,支持ARP/NDP和BGP协议。Traefik的优势在于其自动化、扩展性和安全性,适用于多种复杂部署环境。
Gartner公司预测,到2027年,70%采用生成式人工智能(生成式AI)的企业将把可持续发展和数字主权作为选择公有云生成式AI服务的首要标准。
在高质量发展之路上,一些制造业的跨国公司也发挥了构建“新质生产力”的“领头羊”作用。以通力集团为例,扎根中国近30年以来,通力在中国累计发运台量已突破150万台,不仅满足了国内市场的需求,还将产品出口到全球100多个国家和地区,这被称为通力的“中国节奏”。