谷歌周一低调发布离线语音输入应用"Google AI Edge Eloquent",基于Gemma自动语音识别模型,可实现实时转录并自动过滤"嗯""啊"等填充词。应用提供关键要点、正式、简短、详细等文本转换选项,支持本地处理模式,可导入Gmail关键词并添加自定义词汇。目前仅支持iOS,未来将推出Android版本。
微软推出三款自主开发的商业AI模型:MAI-Transcribe-1语音转录、MAI-Voice-1语音生成和MAI-Image-2图像创建,现已在Microsoft Foundry和MAI Playground平台上线。这些模型运行速度极快且价格极具竞争力,标志着微软意图减少对外部模型特别是OpenAI的依赖,强化自身技术实力。分析师认为,这并非替换合作伙伴,而是降低依赖性并增强控制力,竞争实际发生在架构层面而非单一模型层面。
谷歌于周一发布了Google AI Edge Eloquent应用,这是一款支持离线工作的AI语音识别工具。该应用能够将不连贯的语音转换为可直接使用的文本,几乎无需编辑。应用采用设备端Gemma模型自动优化文本,消除"嗯"、"啊"等填充词和句中修正。支持完全离线操作,可连接谷歌账户构建个人词典,或连接云端获得更强的文本处理能力。应用界面简洁,包含录音、历史、词典和设置功能,且完全免费使用。
企业正重新拥抱电话客服,得益于AI技术的进步。云通信公司Twilio通过模块化架构和模型中立性策略,帮助企业将语音AI集成到客服中心。菲律宾航空等案例显示,语音AI不仅将平均等待时间降至1分钟以下,月度客服成本下降30%,还能将传统成本中心转变为收入引擎。尽管面临数据孤岛和深度伪造等挑战,语音AI正通过高级转录、翻译和交互功能推动更深层次的客户参与。
谷歌本周一悄然发布了名为"Google AI Edge Eloquent"的离线优先语音听写应用,与Wispr Flow等竞品展开竞争。该应用免费下载,基于Gemma的语音识别模型支持离线工作。应用可实时转录语音,暂停后自动过滤"嗯"、"啊"等填充词并润色文本。提供"要点"、"正式"、"简短"、"详细"等转换选项。支持从Gmail导入关键词和术语,可添加自定义词汇,具备转录历史记录和搜索功能。
谷歌最新发布的Home应用更新显著提升了Gemini AI助手的智能家居控制能力。用户现在可以用更自然的描述性语言控制设备,比如说"海洋的颜色"来调节灯光色彩,或直接要求"预热智能烤箱至350度"。Gemini在设备识别方面也更加精准,能够区分"台灯"和"电灯"等相似设备。此外,儿童监管账户也可使用该功能,Live Search摄像头支持和交互式新闻摘要功能同步推出。
微软AI首席执行官苏莱曼表示,公司正专注于追求以商业和生产力为核心的超级智能。新发布的MAI-Transcribe-1转录模型支持25种语言,能在嘈杂环境下进行会议转录、视频字幕和呼叫中心分析,GPU成本仅为同类模型的一半。该模型现已通过微软基础平台和AI游乐场商用化。微软采用10人小团队开发策略,旨在为企业和消费者提供实用的人工智能助手。
亚马逊Alexa Plus语音助手本周开始支持外卖订餐服务,用户可通过Uber Eats和Grubhub下单。该功能需要Echo Show 8或更大屏幕设备支持,提供实时对话式点餐体验。用户可询问本地餐厅信息、浏览菜单并实时调整订单。Alexa Plus可通过Amazon Prime订阅获得,或单独订阅使用。
作者在宠物狗占据膝盖空间的情况下,仅使用单手鼠标和语音输入,成功开发了两个复杂的苹果应用程序。通过AI辅助的"氛围编程"方式,开发流程从传统的编辑-构建-测试-调试转变为指令-构建-测试-引导。作者发现大部分开发时间都在终端聊天界面中度过,几乎不需要使用传统IDE的编辑和调试功能,这让他质疑传统集成开发环境是否已经变得过时。
微软发布三款AI模型:MAI-Image-2图像生成模型支持1024x1024像素分辨率,速度比前代提升一倍;MAI-Transcribe-1语音转录模型速度提升2.5倍,25种语言错误率仅3.9%;MAI-Voice-1语音合成模型支持自定义声音。三款模型通过Microsoft Foundry服务提供,并已集成到Bing、PowerPoint等产品中,定价具有竞争优势。
微软发布三款自研机器学习模型的公开预览版,包括语音识别模型MAI-Transcribe-1、语音合成模型MAI-Voice-1和文本生成图像模型MAI-Image-2。这些模型已在Copilot、Bing等产品中应用,现通过Azure AI Foundry平台向开发者开放。此举使微软从OpenAI投资者转变为直接竞争对手,为企业客服、会议字幕、媒体存档等场景提供解决方案。
加州初创公司Kintsugi历经七年开发语音抑郁症检测AI,但未能及时获得FDA批准而关闭。该公司将大部分技术开源,其AI可通过分析语音模式检测心理健康问题。虽然技术在同行评议研究中表现良好,但FDA的审批流程耗时过长,公司资金耗尽。开源技术引发滥用担忧,但创始人认为技术被低估使用的风险更大。
亚马逊为其新一代AI助手Alexa+推出全新点餐体验,用户可通过对话方式在Uber Eats和Grubhub上订餐。该功能支持用户在单次对话中浏览菜单、询问问题、定制餐点并随时调整订单。用户需在Alexa应用中关联外卖账户,之前的订单将自动同步。目前该功能已向使用Echo Show 8及更大设备的Alexa+用户推出,未来将扩展至购物和旅行等领域。
企业AI公司Cohere推出首个语音模型Transcribe,这是一款专为转录设计的开源自动语音识别模型,可用于笔记记录和语音分析。该模型参数量仅20亿,适合消费级GPU自主部署,目前支持14种语言。在Hugging Face开放ASR排行榜上表现优异,平均词错率为5.42%。Cohere计划将其集成到企业智能体编排平台North中,并通过API免费提供服务。
语音AI初创公司Bland联合创始人兼CEO Isaiah Granet分享了一种颠覆传统的招聘方法。该公司在不到一年时间内从种子前轮发展到B轮融资,其成功秘诀在于优先考虑工作热情而非学历背景,注重工作态度、好奇心和灵活性。节目探讨了如何在意想不到的地方发现优秀人才,非传统人才招募方式,以及招聘理念如何塑造企业文化等话题。
语音AI初创公司Bland联合创始人兼CEO Isaiah Granet分享了其独特的招聘理念。该公司在不到一年时间内从种子前轮融资发展到B轮融资,采用了颠覆性的招聘方法:优先考虑工作态度、好奇心和灵活性,而非简历和人脉关系。讨论内容包括如何在意想不到的地方发现"隐藏宝石"人才、非常规人才寻源的作用,以及招聘理念如何塑造公司文化。
AI驱动的会议记录应用Granola估值2.5亿美元,深受科技行业创始人和投资人青睐。英国开发者Nick Payne认为市场需要更私密的本地化替代方案,因此创建了Mac应用Talat。该应用利用苹果Neural Engine在本地处理音频转录,无需将语音数据上传至云端。Talat支持实时转录、发言人识别、会议摘要生成等功能,所有数据均存储在本地设备上,售价49美元一次性购买。
数字会议记录工具如Read AI、Fireflies.ai等可处理在线会议,但对于现场会议,许多人偏爱物理录音设备。这些AI笔记设备能录制音频并提供会议摘要和行动项目。产品包括可穿戴的胸针或吊坠式设备,以及信用卡大小的便携设备,配备专用应用程序进行AI转录和洞察提取。部分设备还支持实时翻译功能,为用户提供多样化的会议记录解决方案。
IBM Granite语音模型在澳大利亚皇家飞行医生服务的测试中表现卓越,能在飞机引擎噪音环境下准确识别医护人员语音。该技术将医护记录时间从28分钟缩短至2分钟,显著提升工作效率。相比其他主流模型,Granite在嘈杂环境中的语音理解能力更强,为语音输入应用开辟新可能性。
亚马逊正式将其AI驱动的对话助手Alexa+引入英国,这是北美以外首个获得该服务的国家。目前英国用户可通过早期访问计划免费试用,购买新款Echo设备即可获得邀请。早期访问结束后,Prime订阅用户可免费使用,非Prime用户需支付每月19.99英镑。Alexa+支持Echo设备、Fire TV和应用程序,并针对英国用户进行了本地化定制优化。