5月26日,在商汤科技主办的以“看见人工智能”为主题的2017商汤“智”造大会上,金山云与商汤科技签署战略合作协议,金山云视频云事业部副总经理、视频云首席架构师钱一峰和商汤科技副总裁柳钢参加了签约仪式。
金山云视频云事业部副总经理、视频云首席架构师钱一峰(左)和商汤科技副总裁柳钢(右)代表双方签署战略合作协议
根据协议,商汤科技作为金山云首批“AI+”的合作伙伴,旗下的SenseAR增强现实感特效引擎,将会在金山云即将推出的视频生态新平台中实现集成,不仅将满足客户更加多样化的需求,在打造新一代智能视频云服务上,也将与金山云一同发挥重要作用。
从CDN到AI+,视频云的三阶段
2016年直播行业的火爆,带动了一大批直播APP的迅速崛起,2017年,短视频行业也出现井喷式爆发。有预测认为,到2020年,国内短视频市场用户将激增至7亿。如此庞大的用户需求,也推动了视频云服务的加速演化。金山云认为,视频云发展至今,可以划分为三个阶段。
第一阶段是“CDN阶段”,众所周知,CDN是云服务商的基础服务之一。凭借着领先的技术、开放透明的服务理念、极致的质量追求和价格优势,在现阶段,金山云CDN业务的直播客户已超过200家、点播客户已超过1500家。目前,金山云、阿里云、腾讯云已经在国内的CDN市场格局当中占据了第一阵营。接下来,金山云的目标是构建云时代的新型CDN服务。
第二阶段是“PaaS平台阶段”。随着行业的变化和发展,在基础服务上,云服务商需要构建视频云PaaS平台。金山云为企业级客户打造了包括SDK、源站、转码等在内的视频云PaaS平台,为客户提供包括直播、点播、短视频解决方案,从根本上解决了阻碍客户的技术难题,客户可围绕金山云的这一平台构建应用,降低了客户的各项成本,极大地推动了直播、短视频等新兴行业的发展。
第三阶段是“AI+阶段”,在人工智能已经成为了全球经济发展的新动力时,它将给视频行业带来巨大的想象空间。金山云将在这一阶段,推出智能视频云服务。金山云即将通过组件化的方式,在直播、短视频SDK的基础上,推出 “AI+”新平台,联手业内顶尖的音视频处理服务商、人工智能服务商,通过标准化开放接口,快速集成人脸识别、图像智能识别、AR等技术与应用,共建视频生态链。
“智”造新平台
这也是金山云此次与商汤科技合作的初衷。商汤科技是一家专注于计算机视觉和深度学习原创技术的人工智能领军企业,基于自主研发的深度学习平台,输出多种核心人工智能视觉技术,包括人脸识别、视频分析、文字识别、无人驾驶、医疗影像识别等应用技术。
商汤科技提供高附加值的人工智能工具性产品,以提高效率为核心价值,服务于金融、平安城市、智慧家居、机器人、无人驾驶、医疗等多个行业领域和场景。目前,商汤科技已经与英伟达、中国移动、银联、华为、小米、OPPO、vivo、微博、科大讯飞等众多知名战略合作伙伴和大客户建立商业合作,目标是迅速利用深度学习平台和深度学习产品升级产业,打造中国的深度学习引擎和人工智能生态。
一直以来,商汤科技非常注重以最前沿“场景化应用”为基础的人工智能技术研究,也汇聚了众多科学家,使得商汤科技在人工智能基础性研究和原创技术开发方面,受到行业的广泛认可。
作为金山云的战略合作伙伴,商汤科技旗下的SenseAR增强现实感特效引擎(金山云将采用其中的人脸贴纸、手势识别等功能),将会在金山云即将推出的视频生态新平台中实现集成,大幅降低客户的对接成本,从而满足客户更加多样性的需求。
“云服务商始终需要充分利用最前沿的技术,优化服务,引领行业和商业模式的变革”,钱一峰说,“我们愿与分布在各领域的顶级合作伙伴一起,释放我们的优势和能力,打造并不断壮大视频行业的全新生态,为客户创造更多价值,推动行业的繁荣”。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。