语音识别文章列表第1页-至顶网频道 - 至顶网

/

语音识别关键字列表

Pixel手机应用推出"留言"自定义问候语功能

智能手机功能

语音识别

个性化定制

2026-06-04

Pixel手机应用推出"留言"自定义问候语功能

谷歌Pixel手机应用正式向稳定版用户推出自定义"代接留言"问候语功能，此前该功能已在测试版频道上线。用户可录制个性化语音问候，替代来电被自动接听时的默认提示音。功能入口位于主页顶部或设置菜单内，支持录制多条问候语，每条最长一分钟，并可设置默认项。该功能自4月起已面向测试版用户开放，现随223版本向所有用户推出，适用于Pixel 6及更新机型，覆盖澳大利亚、加拿大、爱尔兰、英国和美国。

两位来自高盛和Meta的创始人，为被忽视的市场打造语音AI

人工智能

语音识别

小型模型优化

2026-06-04

两位来自高盛和Meta的创始人，为被忽视的市场打造语音AI

AethexAI是一家专注于非洲和中东市场的语音AI初创公司，近日完成300万美元Pre-seed融资，由4DX Ventures领投。该公司由前高盛和Meta员工联合创立，针对当地方言、高通话量和基础设施限制，自主研发了小参数模型（3亿至17亿参数）和编排层，有效降低延迟。目前每日处理超1.7万通电话，主要应用于催收、客户激活和KYC验证场景。

ChatGPT语音创造者创业，致力打造现实版"Her"中的AI语音技术

人工智能

语音识别

音频大语言模型

新型音频AI

2026-05-12

ChatGPT语音创造者创业，致力打造现实版"Her"中的AI语音技术

ChatGPT高级语音模式的创造者Alexis Conneau离开OpenAI后，创办了音频AI初创公司WaveForms AI，并获得由a16z领投的4000万美元种子轮融资。该公司专注于训练自有音频大语言模型，计划于2025年推出与OpenAI、谷歌竞争的AI音频产品。Conneau深受电影《Her》启发，致力于开发具备情感感知能力的语音AI，同时警惕AI伴侣化带来的社会问题，强调技术应服务于人而非取代人际关系。

Vibe推出可穿戴AI设备Dot，专为职场实时对话场景设计

人工智能

语音识别

可穿戴AI设备

2026-05-12

Vibe推出可穿戴AI设备Dot，专为职场实时对话场景设计

Vibe公司推出可穿戴AI设备Vibe Dot，专为企业专业人士设计。该设备搭载五个麦克风，支持最远16英尺的收音范围，可实时捕捉多人对话并同步至Vibe AI应用，自动生成结构化摘要，构建企业知识库。设备续航约30小时，支持语音命令触发AI代理执行任务，兼容Claude、OpenAI Codex等第三方AI。售价199美元，核心功能免费使用。

OpenAI 发布三款实时语音新模型，支持推理、翻译与转录

人工智能

语音识别

新型语音模型

2026-05-12

OpenAI 发布三款实时语音新模型，支持推理、翻译与转录

OpenAI近日推出三款面向开发者的实时语音模型，分别专注于不同应用场景。GPT-Realtime-2基于GPT-5级别能力，支持在实时对话中进行推理、工具调用及中断处理；新翻译语音模型支持70种输入语言和13种输出语言；GPT-Realtime-Whisper则是低延迟流式语音转文字模型，可实时生成字幕或会议记录。三款模型均已纳入OpenAI的Realtime API，开发者可在Playground中进行测试体验。

Google Home迎来Gemini 3.1语音助手升级及全新摄像头控制功能

智能家居

语音识别

功能优化

2026-05-08

Google Home迎来Gemini 3.1语音助手升级及全新摄像头控制功能

谷歌宣布对Google Home进行重大更新，早期访问用户已可使用Gemini 3.1语音助手，该模型支持复杂多步骤语音指令的高级推理。Ask Home功能将扩展至网页端，支持对话式查看摄像头历史记录和创建自动化任务。摄像头体验也得到改善，包括更流畅的时间轴浏览、10秒跳转按钮及新滑动控制。此外，人脸识别准确性提升，AI事件标签描述更加简洁清晰。

NordVPN浏览器扩展新功能：实时检测AI合成语音

人工智能

语音识别

AI语音检测

2026-05-06

NordVPN浏览器扩展新功能：实时检测AI合成语音

NordVPN为其Chrome浏览器扩展推出AI语音检测工具，可实时分析网页音频，判断声音来自真人还是AI生成。检测结果以绿、黄、红三色标注，分别对应人类声音、疑似AI和确认AI语音。该工具仅分析声学特征，不记录、存储或解读对话内容，也不收集用户身份及浏览数据。目前该功能仅限Chrome扩展，其他浏览器的支持时间尚未公布。

Nothing推出AI语音听写工具Essential Voice

人工智能

语音识别

系统级集成

2026-04-27

Nothing推出AI语音听写工具Essential Voice

硬件公司Nothing近日推出AI语音听写工具Essential Voice，可在任意应用中将语音转为格式化文字，自动去除"嗯""啊"等语气词，并支持自定义语音快捷方式，例如将"我的地址"映射为完整住址。该功能目前已在Phone (3)上线，支持超过100种语言，并可直接进行跨语言翻译。后续还将引入基于应用场景的风格定制功能。Nothing是少数实现系统级语音听写集成的厂商之一。

Google悄然发布离线AI语音输入应用

人工智能

语音识别

离线处理

2026-04-08

Google悄然发布离线AI语音输入应用

谷歌周一低调发布离线语音输入应用"Google AI Edge Eloquent"，基于Gemma自动语音识别模型，可实现实时转录并自动过滤"嗯""啊"等填充词。应用提供关键要点、正式、简短、详细等文本转换选项，支持本地处理模式，可导入Gmail关键词并添加自定义词汇。目前仅支持iOS，未来将推出Android版本。

微软发布自研AI模型套件减少对OpenAI依赖

人工智能

语音识别

自研模型

2026-04-08

微软发布自研AI模型套件减少对OpenAI依赖

微软推出三款自主开发的商业AI模型：MAI-Transcribe-1语音转录、MAI-Voice-1语音生成和MAI-Image-2图像创建，现已在Microsoft Foundry和MAI Playground平台上线。这些模型运行速度极快且价格极具竞争力，标志着微软意图减少对外部模型特别是OpenAI的依赖，强化自身技术实力。分析师认为，这并非替换合作伙伴，而是降低依赖性并增强控制力，竞争实际发生在架构层面而非单一模型层面。

Google推出iOS离线AI语音转写应用

人工智能

语音识别

离线处理

2026-04-08

Google推出iOS离线AI语音转写应用

谷歌于周一发布了Google AI Edge Eloquent应用，这是一款支持离线工作的AI语音识别工具。该应用能够将不连贯的语音转换为可直接使用的文本，几乎无需编辑。应用采用设备端Gemma模型自动优化文本，消除"嗯"、"啊"等填充词和句中修正。支持完全离线操作，可连接谷歌账户构建个人词典，或连接云端获得更强的文本处理能力。应用界面简洁，包含录音、历史、词典和设置功能，且完全免费使用。

语音AI革命：重塑客户服务新体验模式

人工智能

语音识别

客服自动化

2026-04-08

语音AI革命：重塑客户服务新体验模式

企业正重新拥抱电话客服，得益于AI技术的进步。云通信公司Twilio通过模块化架构和模型中立性策略，帮助企业将语音AI集成到客服中心。菲律宾航空等案例显示，语音AI不仅将平均等待时间降至1分钟以下，月度客服成本下降30%，还能将传统成本中心转变为收入引擎。尽管面临数据孤岛和深度伪造等挑战，语音AI正通过高级转录、翻译和交互功能推动更深层次的客户参与。

Google推出离线AI语音转写应用AI Edge Eloquent

人工智能

语音识别

离线处理

2026-04-07

Google推出离线AI语音转写应用AI Edge Eloquent

谷歌本周一悄然发布了名为"Google AI Edge Eloquent"的离线优先语音听写应用，与Wispr Flow等竞品展开竞争。该应用免费下载，基于Gemma的语音识别模型支持离线工作。应用可实时转录语音，暂停后自动过滤"嗯"、"啊"等填充词并润色文本。提供"要点"、"正式"、"简短"、"详细"等转换选项。支持从Gmail导入关键词和术语，可添加自定义词汇，具备转录历史记录和搜索功能。

Google Home升级Gemini语音理解能力

人工智能

语音识别

功能升级

2026-04-03

Google Home升级Gemini语音理解能力

谷歌最新发布的Home应用更新显著提升了Gemini AI助手的智能家居控制能力。用户现在可以用更自然的描述性语言控制设备，比如说"海洋的颜色"来调节灯光色彩，或直接要求"预热智能烤箱至350度"。Gemini在设备识别方面也更加精准，能够区分"台灯"和"电灯"等相似设备。此外，儿童监管账户也可使用该功能，Live Search摄像头支持和交互式新闻摘要功能同步推出。

微软推出新转录模型迈向商业化"超级智能"愿景

人工智能

语音识别

商业应用

2026-04-03

微软推出新转录模型迈向商业化"超级智能"愿景

微软AI首席执行官苏莱曼表示，公司正专注于追求以商业和生产力为核心的超级智能。新发布的MAI-Transcribe-1转录模型支持25种语言，能在嘈杂环境下进行会议转录、视频字幕和呼叫中心分析，GPU成本仅为同类模型的一半。该模型现已通过微软基础平台和AI游乐场商用化。微软采用10人小团队开发策略，旨在为企业和消费者提供实用的人工智能助手。

Alexa Plus AI推出餐饮配送服务，支持Uber Eats和Grubhub点餐

人工智能

语音识别

智能订餐

2026-04-03

Alexa Plus AI推出餐饮配送服务，支持Uber Eats和Grubhub点餐

亚马逊Alexa Plus语音助手本周开始支持外卖订餐服务，用户可通过Uber Eats和Grubhub下单。该功能需要Echo Show 8或更大屏幕设备支持，提供实时对话式点餐体验。用户可询问本地餐厅信息、浏览菜单并实时调整订单。Alexa Plus可通过Amazon Prime订阅获得，或单独订阅使用。

仅用语音和鼠标开发两款应用：IDE是否已成历史？

人工智能

语音识别

开发方法创新

2026-04-03

仅用语音和鼠标开发两款应用：IDE是否已成历史？

作者在宠物狗占据膝盖空间的情况下，仅使用单手鼠标和语音输入，成功开发了两个复杂的苹果应用程序。通过AI辅助的"氛围编程"方式，开发流程从传统的编辑-构建-测试-调试转变为指令-构建-测试-引导。作者发现大部分开发时间都在终端聊天界面中度过，几乎不需要使用传统IDE的编辑和调试功能，这让他质疑传统集成开发环境是否已经变得过时。

微软发布三款高速图像语音AI模型

人工智能

语音识别

高速处理

2026-04-03

微软发布三款高速图像语音AI模型

微软发布三款AI模型：MAI-Image-2图像生成模型支持1024x1024像素分辨率，速度比前代提升一倍；MAI-Transcribe-1语音转录模型速度提升2.5倍，25种语言错误率仅3.9%；MAI-Voice-1语音合成模型支持自定义声音。三款模型通过Microsoft Foundry服务提供，并已集成到Bing、PowerPoint等产品中，定价具有竞争优势。

微软发布三款AI模型，与OpenAI展开直接竞争

人工智能

语音识别

自研模型

2026-04-03

微软发布三款AI模型，与OpenAI展开直接竞争

微软发布三款自研机器学习模型的公开预览版，包括语音识别模型MAI-Transcribe-1、语音合成模型MAI-Voice-1和文本生成图像模型MAI-Image-2。这些模型已在Copilot、Bing等产品中应用，现通过Azure AI Foundry平台向开发者开放。此举使微软从OpenAI投资者转变为直接竞争对手，为企业客服、会议字幕、媒体存档等场景提供解决方案。

心理健康AI检测工具获FDA批准困难重重

人工智能

语音识别

开源技术

2026-04-03

心理健康AI检测工具获FDA批准困难重重

加州初创公司Kintsugi历经七年开发语音抑郁症检测AI，但未能及时获得FDA批准而关闭。该公司将大部分技术开源，其AI可通过分析语音模式检测心理健康问题。虽然技术在同行评议研究中表现良好，但FDA的审批流程耗时过长，公司资金耗尽。开源技术引发滥用担忧，但创始人认为技术被低估使用的风险更大。

1
2
3
4

白皮书

更多

数字化转型方略

更多

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

友情链接

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号

举报电话：010-62641205-5060　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn

网上有害信息举报专区：https://www.12377.cn

安全联盟认证