从网络电话的诞生,到与AI实现实时对话,实时互动经历了飞速进化,已经成为现代工作和生活中不可或缺的一部分。
无论是教育领域提供的沉浸式学习体验,还是娱乐行业推动观众与内容创作者的实时连接,实时音视频已深刻融入到各行各业,成为提高参与感与效率的关键工具。
在成立之初声网的愿景便是让实时互动像空气和水一样,无处不在。过去十年,声网成功将这一愿景变为现实,让实时互动成为各行各业的基础能力。
“看得见、听得清”一直是实时互动的核心指标。不卡顿,一直是声网的核心出发点,希望满足任何时间、设备和网络环境下的需求,同时保持低成本。进入AI时代,声网与微软的合作也进一步深入,不仅提升了开发者和企业的效率,还加速了AI赋能的转型进程,让AI Agent,看的见,听得清,反应快,说的准。
从云到AI,不断延伸合作的边界
开发者只需简单调用声网API,即可在应用内构建多种实时音视频互动场景。同时声网不仅创造了全球首个、迄今为止规模最大的实时音视频网络——软件定义实时网 SD-RTN™,还推出了全球首个、迄今为止数据处理能力最强、分析维度最广的实时音视频质量诊断分析产品——水晶球 Analytics。
目前,声网主要聚焦两大业务方向。第一,针对需求较为整体或简单的客户,提供轻量级的一体化方案,基于音视频的基本能力,可以快速推出如对话助手等功能,用户只需在后台开通,且方案中保留一定的个性化定制空间;第二,针对具备开发能力的企业,提供更为专业的开发套件。
随着生成式AI的入局,让“AI+泛娱乐”成为一个热门开发方向。声网也在原有的SDK上,与AI大模型对接,新增专用的SDK能力,形成了整合的解决方案。
声网首席运营官刘斌谈到,这种整合的方案让开发者可以避免对接多个厂商,简化了开发流程,同时能够显著降低延迟,延迟过高会限制产品的扩展性。
此外,声网和微软的合作覆盖了多个层面,首先,微软是声网的云服务合作伙伴之一;其次,微软在全球合规方面的强大能力也为声网的运营提供了重要保障;最后,微软在大模型技术,特别是语音转文字等领域,早已具备领先的技术实力,声网也与微软在大模型领域展开合作。声网也是微软的ISV Partner,双方已基于语音相关AI产品进行了IPcosell。
打造技术生态,AI与音视频的整合交付
声网与微软的合作是基于双方在技术和市场上的互补性,主要体现在大模型应用和多模态技术的整合上。微软大中华区副总裁、数字原生事业部总经理田灼说道,微软专注于大模型的研发和质量输出,尤其在文本大模型到多模态模型的转型过程中。
左:微软大中华区副总裁、数字原生事业部总经理田灼、右:声网首席运营官刘斌
声网和微软的合作不仅推动了技术的创新,也形成了一个新的生态圈,帮助企业和开发者降低开发成本,缩短开发周期,提升开发质量。
随着大模型逐步应用到企业时,工程学问题和开发挑战不可避免,尤其是在音视频需求不断增强的多模态应用场景中。田灼强调,微软专注于大模型的核心质量,而声网则负责解决音视频传输的“最后一公里”问题,比如微软Azure AI Vision服务交付给客户时,音视频带宽和优化要求将带来巨大的压力,声网就可以提供带宽优化、低延迟和高质量的用户体验。
“这是一种刚需驱动的合作模式。”田灼说,对AI和实时音视频有迫切需求的企业都会寻找到微软和声网,两者通过整合API、SDK,可以无缝交付给客户,提供最大的便利性。
而且从整体安全体系看来,声网已获得ISO、SOC2和GDPR等多项认证。叠加微软在全球拥有 100 多项合规认证的微软智能云平台,声网能够更加放心系统安全,确保达到安全效果。
写在最后
就目前而言,声网已具备帮助客户实现目标的能力,但真正的价值创造还取决于客户在各自垂直领域内的专业知识(know how)和对需求的精准把握。刘斌坦言,声网的核心作用在于帮助客户降低试错成本,加速目标的实现,但在一些高度专业化的领域,问题的解决并非声网的专长。
所以在现阶段,双方基于各自价值需求的合作基础之上,还要为客户呈现出更加完善、优质的解决方案,推动创新。
这种合作模式将为微软与更多企业的合作创造契机,这也符合微软一直倡导的成长型思维。通过与互补的生态合作伙伴深度协作,双方能够取长补短,探索出最佳解决方案。微软希望以自身为触角,结合伙伴的优质服务,为客户交付更大的价值,实现双赢,这正是合作的核心要义。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
Meta超级智能实验室联合佐治亚理工学院开发出RECAP训练方法,通过故意给AI模型误导性开头来训练其纠错能力。该方法显著提升了大语言模型的安全性(12.3%)、抗攻击能力(21.0%)和推理质量,同时减少过度拒绝问题。RECAP无需额外计算资源,能让AI模型学会自我反思和批判性思维,为构建更可信的AI系统提供了新思路。
微软重启三里岛核反应堆的协议确认了AI革命与能源现实主义的融合。亚马逊和谷歌也达成类似协议,共同押注核能为AI未来提供最可行的动力路径。到2030年代,数据中心用电量可能媲美大国水平。国际能源署预测全球电力需求到2050年将增长六倍。核电厂90%的容量因子使其独特适合数据中心需求。世界核协会估计,当前全球398GW核能产能必须在2050年前至少增长两倍。
奥地利科学技术研究院团队深入研究微缩浮点数格式NVFP4和MXFP4的实际性能,发现现有量化方法效果不佳。他们开发了微旋转GPTQ算法和QuTLASS计算库,在保持模型精度的同时实现显著加速:B200芯片上达到2.2倍端到端提升,RTX5090上实现4倍加速,为AI推理优化提供了新的解决方案。
 
             
                 
                     
                     
                    