ZD至顶网软件频道消息 (文/张晓楠):移动直播市场有多火爆?相信不需要再一一细数了,无论内容方、平台方还是资本方,都在瞄向移动直播这个千亿规模的市场。而打造一款月流水过亿的移动直播APP,看来并非遥不可及。
如果说传统视频直播网站是1.0、YY等PC端视频直播是2.0,那么在如今的视频直播3.0时代,要想让移动直播焕发出传统视频直播无可比拟的优势,技术手段就成为了催化剂。App上线速度、视频直播质量、峰值应对、网络环境适应…哪一个都离不开技术的支持。面对提前到来的移动直播热潮,机会留给有准备的人。金山云合伙人朱桦在接受ZD至顶网采访的时候表示:“面对移动直播市场我们提前一年多就在进行技术储备,这使得热潮提前到来的时候我们才不会手足无措,可以说我们在这个市场已经具有了行业最高水准。”
金山云合伙人朱桦
金山云在移动直播市场的表现可以以一个数字来佐证:目前排名前200位的移动直播APP中,有三分之一以上使用了金山云的服务。而据金山软件CEO兼金山云CEO张宏江近日表示,去年金山云业务增长达300%,杀手锏之一就是金山云推出的便捷化“一站式”视频云服务,它能够帮助企业快速搭建视频直播App及后台。
所谓“一站式”视频云服务,也就是说金山云提供给用户推流端、媒体端、播放端、视频播放器、直播间分发、服务端…端到端的一站式服务,用户开发移动直播APP就好像开发一款普通APP一样简单。对此朱桦举例:“最快的纪录是我们一个只有6人研发团队的客户,从设计到安卓、iOS版本APP上线只用了三个星期。”
在朱桦看来,移动直播市场能够提供专业技术服务的厂商无外乎两大类,一类是移动直播行业内的垂直服务商,他们无论技术储备还是研发能力,与金山云差得都很多。最初大家可能还可以拼速度,比如看谁先把App做出来,但是接下来要拼的就是更高级功能了,比如金山云目前能够做到的直播美颜、弱网环境下的视频播放、音频处理…很多业内友商还做不到。而且这个赛道的竞争是高速的,既考验技术实力,又考验对行业的判断。
另一类技术服务厂商,可能就是BAT了,对此朱桦信心满满:“对于金山云来说,移动直播是我们战略决胜的方向,无论投入的时间和精力,还是专注性,我们都比BAT要多。他们更多是作为行业热点在跟进这个行业,但是这并不是他们的战略方向。”
在金山云面向移动直播行业的战略准备中,他们看得十分长远。在金山云看来,移动直播行业市场空间巨大的原因在于它是一个工具或者说是一个平台,可以应用于不同市场,而并不局限于某个形态的具体产品。这样一来,除了当前火爆的秀场之外,电商平台、社区、游戏直播、在线教育,都可以借助于移动直播来增强互动性和社交属性。对于这些行业,金山云都有跟进策略,也在密切观察这些行业的发展趋势。为了顺应这一发展趋势,在技术储备上,除了语音技术之外,金山云还会把VR、360多全景等技术运用到移动直播中,但是其中立的技术产品提供商的定位不会改变,不会当进场的玩家。
从这个角度来看,金山云在提供技术支持的同时,更希望自己成为一个桥梁、成为串起产业生态链的那根绳,毕竟移动直播行业虽然火爆,但是只是刚刚起步,在大家都在求快之后,必须要拼创新、创意、产品和服务,万事不能急。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。