从网络电话的诞生,到与AI实现实时对话,实时互动经历了飞速进化,已经成为现代工作和生活中不可或缺的一部分。
无论是教育领域提供的沉浸式学习体验,还是娱乐行业推动观众与内容创作者的实时连接,实时音视频已深刻融入到各行各业,成为提高参与感与效率的关键工具。
在成立之初声网的愿景便是让实时互动像空气和水一样,无处不在。过去十年,声网成功将这一愿景变为现实,让实时互动成为各行各业的基础能力。
“看得见、听得清”一直是实时互动的核心指标。不卡顿,一直是声网的核心出发点,希望满足任何时间、设备和网络环境下的需求,同时保持低成本。进入AI时代,声网与微软的合作也进一步深入,不仅提升了开发者和企业的效率,还加速了AI赋能的转型进程,让AI Agent,看的见,听得清,反应快,说的准。
从云到AI,不断延伸合作的边界
开发者只需简单调用声网API,即可在应用内构建多种实时音视频互动场景。同时声网不仅创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网 SD-RTN™,还推出了全球首个、迄今为止数据处理能力最强、分析维度最广的实时音视频质量诊断分析产品——水晶球 Analytics。
目前,声网主要聚焦两大业务方向。第一,针对需求较为整体或简单的客户,提供轻量级的一体化方案,基于音视频的基本能力,可以快速推出如对话助手等功能,用户只需在后台开通,且方案中保留一定的个性化定制空间;第二,针对具备开发能力的企业,提供更为专业的开发套件。
随着生成式AI的入局,让“AI+泛娱乐”成为一个热门开发方向。声网也在原有的SDK上,与AI大模型对接,新增专用的SDK能力,形成了整合的解决方案。
声网首席运营官刘斌谈到,这种整合的方案让开发者可以避免对接多个厂商,简化了开发流程,同时能够显著降低延迟,延迟过高会限制产品的扩展性。
此外,声网和微软的合作覆盖了多个层面,首先,微软是声网的云服务合作伙伴之一;其次,微软在全球合规方面的强大能力也为声网的运营提供了重要保障;最后,微软在大模型技术,特别是语音转文字等领域,早已具备领先的技术实力,声网也与微软在大模型领域展开合作。声网也是微软的ISV Partner,双方已基于语音相关AI产品进行了IPcosell。
打造技术生态,AI与音视频的整合交付
声网与微软的合作是基于双方在技术和市场上的互补性,主要体现在大模型应用和多模态技术的整合上。微软大中华区副总裁、数字原生事业部总经理田灼说道,微软专注于大模型的研发和质量输出,尤其在文本大模型到多模态模型的转型过程中。
左:微软大中华区副总裁、数字原生事业部总经理田灼、右:声网首席运营官刘斌
声网和微软的合作不仅推动了技术的创新,也形成了一个新的生态圈,帮助企业和开发者降低开发成本,缩短开发周期,提升开发质量。
随着大模型逐步应用到企业时,工程学问题和开发挑战不可避免,尤其是在音视频需求不断增强的多模态应用场景中。田灼强调,微软专注于大模型的核心质量,而声网则负责解决音视频传输的“最后一公里”问题,比如微软Azure AI Vision服务交付给客户时,音视频带宽和优化要求将带来巨大的压力,声网就可以提供带宽优化、低延迟和高质量的用户体验。
“这是一种刚需驱动的合作模式。”田灼说,对AI和实时音视频有迫切需求的企业都会寻找到微软和声网,两者通过整合API、SDK,可以无缝交付给客户,提供最大的便利性。
而且从整体安全体系看来,声网已获得ISO、SOC2和GDPR等多项认证。叠加微软在全球拥有 100 多项合规认证的微软智能云平台,声网能够更加放心系统安全,确保达到安全效果。
写在最后
就目前而言,声网已具备帮助客户实现目标的能力,但真正的价值创造还取决于客户在各自垂直领域内的专业知识(know how)和对需求的精准把握。刘斌坦言,声网的核心作用在于帮助客户降低试错成本,加速目标的实现,但在一些高度专业化的领域,问题的解决并非声网的专长。
所以在现阶段,双方基于各自价值需求的合作基础之上,还要为客户呈现出更加完善、优质的解决方案,推动创新。
这种合作模式将为微软与更多企业的合作创造契机,这也符合微软一直倡导的成长型思维。通过与互补的生态合作伙伴深度协作,双方能够取长补短,探索出最佳解决方案。微软希望以自身为触角,结合伙伴的优质服务,为客户交付更大的价值,实现双赢,这正是合作的核心要义。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。