从网络电话的诞生,到与AI实现实时对话,实时互动经历了飞速进化,已经成为现代工作和生活中不可或缺的一部分。
无论是教育领域提供的沉浸式学习体验,还是娱乐行业推动观众与内容创作者的实时连接,实时音视频已深刻融入到各行各业,成为提高参与感与效率的关键工具。
在成立之初声网的愿景便是让实时互动像空气和水一样,无处不在。过去十年,声网成功将这一愿景变为现实,让实时互动成为各行各业的基础能力。
“看得见、听得清”一直是实时互动的核心指标。不卡顿,一直是声网的核心出发点,希望满足任何时间、设备和网络环境下的需求,同时保持低成本。进入AI时代,声网与微软的合作也进一步深入,不仅提升了开发者和企业的效率,还加速了AI赋能的转型进程,让AI Agent,看的见,听得清,反应快,说的准。
从云到AI,不断延伸合作的边界
开发者只需简单调用声网API,即可在应用内构建多种实时音视频互动场景。同时声网不仅创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网 SD-RTN™,还推出了全球首个、迄今为止数据处理能力最强、分析维度最广的实时音视频质量诊断分析产品——水晶球 Analytics。
目前,声网主要聚焦两大业务方向。第一,针对需求较为整体或简单的客户,提供轻量级的一体化方案,基于音视频的基本能力,可以快速推出如对话助手等功能,用户只需在后台开通,且方案中保留一定的个性化定制空间;第二,针对具备开发能力的企业,提供更为专业的开发套件。
随着生成式AI的入局,让“AI+泛娱乐”成为一个热门开发方向。声网也在原有的SDK上,与AI大模型对接,新增专用的SDK能力,形成了整合的解决方案。
声网首席运营官刘斌谈到,这种整合的方案让开发者可以避免对接多个厂商,简化了开发流程,同时能够显著降低延迟,延迟过高会限制产品的扩展性。
此外,声网和微软的合作覆盖了多个层面,首先,微软是声网的云服务合作伙伴之一;其次,微软在全球合规方面的强大能力也为声网的运营提供了重要保障;最后,微软在大模型技术,特别是语音转文字等领域,早已具备领先的技术实力,声网也与微软在大模型领域展开合作。声网也是微软的ISV Partner,双方已基于语音相关AI产品进行了IPcosell。
打造技术生态,AI与音视频的整合交付
声网与微软的合作是基于双方在技术和市场上的互补性,主要体现在大模型应用和多模态技术的整合上。微软大中华区副总裁、数字原生事业部总经理田灼说道,微软专注于大模型的研发和质量输出,尤其在文本大模型到多模态模型的转型过程中。
左:微软大中华区副总裁、数字原生事业部总经理田灼、右:声网首席运营官刘斌
声网和微软的合作不仅推动了技术的创新,也形成了一个新的生态圈,帮助企业和开发者降低开发成本,缩短开发周期,提升开发质量。
随着大模型逐步应用到企业时,工程学问题和开发挑战不可避免,尤其是在音视频需求不断增强的多模态应用场景中。田灼强调,微软专注于大模型的核心质量,而声网则负责解决音视频传输的“最后一公里”问题,比如微软Azure AI Vision服务交付给客户时,音视频带宽和优化要求将带来巨大的压力,声网就可以提供带宽优化、低延迟和高质量的用户体验。
“这是一种刚需驱动的合作模式。”田灼说,对AI和实时音视频有迫切需求的企业都会寻找到微软和声网,两者通过整合API、SDK,可以无缝交付给客户,提供最大的便利性。
而且从整体安全体系看来,声网已获得ISO、SOC2和GDPR等多项认证。叠加微软在全球拥有 100 多项合规认证的微软智能云平台,声网能够更加放心系统安全,确保达到安全效果。
写在最后
就目前而言,声网已具备帮助客户实现目标的能力,但真正的价值创造还取决于客户在各自垂直领域内的专业知识(know how)和对需求的精准把握。刘斌坦言,声网的核心作用在于帮助客户降低试错成本,加速目标的实现,但在一些高度专业化的领域,问题的解决并非声网的专长。
所以在现阶段,双方基于各自价值需求的合作基础之上,还要为客户呈现出更加完善、优质的解决方案,推动创新。
这种合作模式将为微软与更多企业的合作创造契机,这也符合微软一直倡导的成长型思维。通过与互补的生态合作伙伴深度协作,双方能够取长补短,探索出最佳解决方案。微软希望以自身为触角,结合伙伴的优质服务,为客户交付更大的价值,实现双赢,这正是合作的核心要义。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。