ZD至顶网软件频道消息: 随着智能手机、4G网络和Wi-Fi的普及,实时通信应用已经融入了人们的生活。事实上,实时通信技术也正在与互联网行业及各大传统行业相结合,为行业升级提供动力,这将是又一个千亿级规模的市场。
10月28日,百度云与声网Agora.io的战略合作签约仪式正式召开。一个是刚刚完成品牌战略升级的大型云厂商,一个是全球实时云开创者,此次强强联合将重点在技术、产品、行业解决方案等方面开展深入全面合作,引爆实时通信千亿级市场。
通过此次战略合作,百度云智能多媒体平台“天像”将全面整体接入声网Agora.io的音视频通话和全互动直播产品,共建实时互联网领域生态体系,为用户提供一站式的打包音视频服务。
声网Agora.io的实时音视频服务和技术具有抗丢包、抖动、低延迟等特点,将与百度云平台强劲的技术一起为企业级客户提供灵活的解决方案。开发者只需简单集成SDK,最快30分钟即可让App实现高清音视频通话,和多主播实时全互动直播,从根本上降低了开发者的技术门槛。
7月份的云计算战略发布会上,百度云提出了“创举计划”,与包括软硬件集成商、解决方案提供商、渠道分销等在内的上下游产业链合作伙伴一起共建开放的云生态圈。此次与声网Agora.io的战略合作,是百度云创举计划的又一次落地。百度云将与声网Agora.io一同优化产品及服务,合力打造良性的产业生态,让实时通信技术与医疗、教育、直播、游戏、社交、旅游、客户服务、企业协作、电商,以及前沿科技领域的AR、VR和在IoT领域等十几个行业和领域深入融合,促进产业升级。
百度总裁张亚勤曾提到,“互联网+”的下一站是“智能+”,它将再度重构3600行的商业模式与竞争法则,帮助各行各业进一步变革升级,提升效率、创造新价值。
基于16年的技术积累,以及过去几年里沉淀下来的服务企业用户的经验,百度正在逐步将自身的技术能力开放给企业和开发者,为其商业创新和转型升级提供引擎。而百度云就是实现这个目标的重要平台之一。通过百度云平台,企业和开发者不仅可以获得行业领先的技术和服务,提升自身的生产效益和业务创新,还能够获得百度生态资源,与百度云共建创新的云生态。
可以说,百度云的技术优势和生态建设,不仅吸引了包括声网Agora.io在内的云计算上下游产业链的合作伙伴,也将为百度云成为云计算市场的领军者提供信心。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。