至顶网软件与服务频道消息: 2019年8月28日,搜狗公司举行了以“全新「声」态,AI未来”为主题的搜狗听写服务开放暨AI创新联盟发布会。会上,搜狗将其核心技术能力 “搜狗听写”服务开放,并宣布与爱国者、Newmine纽曼、索尼录音笔、万城集团四家录音笔行业头部企业成立AI创新联盟。本次发布会的召开,标志搜狗正引领录音笔行业走向AI时代。
目前搜狗输入法语音请求峰值已超7亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,其实时语音转写运用了搜狗自研的延迟可控的Adaptive Attention-based端到端建模技术,非实时语音转写功能使用业界领先的深层Transformer-based端到端语音识别技术,语音转写准确率可达95%以上;在语音增强方面,搜狗自研的Smart Voice麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。在智能辅助编辑方面,搜狗语音转写可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。
凭借其强大的语音技术以及优秀的软硬件结合能力,搜狗今年3月份推出了AI录音笔C1,其转写准确率高达95%以上,并且拥有实时互译、云端分享、中英同传等多种AI功能,极短时间内就在多个电商平台取得了单品销量第一的成绩,可见搜狗语音转写技术已经得到了市场的检验和认可。此次发布会上,搜狗又推出升级版AI录音笔炫彩版,满足用户更多元化、更时尚的需求,同时将AI录音笔背后经过市场检验的“搜狗听写“服务体系开放出来,进而引领整个录音笔行业的AI化变革,这正是搜狗践行其AI战略的一次有效尝试。
值得一提的是,本次搜狗听写服务实现了与搜狗输入法的打通,这不仅为听写服务带来了流量和数据上的巨大优势,同时更是搜狗输入法“表达信息更简单”使命的延伸,也是搜狗听写服务相比其他语音转写平台的优势所在。目前搜狗输入法在PC端占有99%的市场份额,在手机端用户日活超4.5亿,搜狗听写服务基于搜狗输入法的用户使用习惯,能够自动构建个性化识别网络,使用户常用语错误率下降40%。搜狗开放听写服务后,可以为市场上90%以上的录音笔产品提供接入服务,让所有有需求的用户享受“录音1小时,出稿5分钟”的极致体验。
此外,在发布会上搜狗与录音笔行业的几家头部企业达成AI创新联盟,对于录音笔行业的商业模式来说也是一次重大的颠覆和升级。联盟达成将使录音笔行业从以硬件为主的单一收益模式向硬件+服务的多种收益模式转变,促进录音笔行业实现全面智能升级,与AI创新深度融合。通过AI录音笔创新、开放搜狗语音转写服务、建立AI创新联盟,搜狗正从产品、技术与产业链三个方向,引领着录音笔行业进入AI时代。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。