AI笔记公司Plaud在CES 2026推出新款可穿戴设备NotePin S,可夹在衣领、戴在手腕或挂在脖子上记录对话。该设备通过蓝牙连接手机,配备双麦克风,录制范围约3米,支持一键高亮标记重要时刻。同时发布的还有Plaud Desktop桌面AI记录工具,可原生捕获线上会议内容,无需机器人加入通话。两款产品将所有笔记、会议和对话整合到统一平台管理。
Thine公司在CES 2026上展示了基于iPhone的AI笔记应用,CEO认为无需开发专用硬件设备,直接利用手机现有的麦克风和Siri功能即可实现对话记录和转录。该应用训练AI模型分析对话记录,用户可询问特定对话内容。目前月费200美元,主要面向高管用户,但随着技术改进和规模扩大,价格有望大幅下降。公司不存储音频文件,正在开发提供完整转录文本的新版本,长期存储和安全保护是主要成本。
Vocci AI推出的智能戒指在CES 2025展出,专为职场应用设计。该戒指通过手动按压侧面按钮开始录音,会议结束后自动生成转录文本。用户可在重要时刻再次按压按钮进行标记,AI会在转录中用红色标注并提供洞察分析。戒指厚2.8毫米,宽6.8毫米,支持100多种语言,可录制约8小时内容。录音数据保存在云端,预计2月开启预订,4月首批发货。
硬件制造商Plaud在CES展会前发布了新款AI记录设备NotePin S和桌面应用程序。新款别针售价179美元,配备物理按钮控制录制,支持点击标记重点,包含夹子、挂绳、磁性别针和腕带等多种佩戴方式,并支持苹果查找功能。设备拥有64GB存储和20小时续航,双MEMS麦克风可在3米范围内清晰录音。
SwitchBot在CES展会上发布了AI MindClip,这是一款可穿戴麦克风设备,能够记录并转录用户说出的每一个声音。该产品配备AI功能,可以总结对话内容并提取有用数据,还能根据判断主动创建提醒事项。虽然类似产品在本届CES上不少见,但SwitchBot希望通过智能化功能在竞争中脱颖而出。目前产品的具体上市时间和价格尚未公布。
据报道,OpenAI正在重组多个工程、产品和研究团队,全力改进音频模型,为一年后推出的音频优先个人设备做准备。整个科技行业都在朝着屏幕退居幕后、音频占据中心地位的未来发展。Meta、谷歌、特斯拉等巨头以及众多初创公司都在押注音频交互界面。OpenAI新音频模型预计2026年初推出,将具备更自然的对话能力和中断处理功能,可能应用于眼镜或无屏智能音箱等设备。
SwitchBot在CES展会上发布AI MindClip音频记录器,这款重18克的夹式设备可记录日常对话和工作会议,支持超过100种语言。设备能将语音转换为摘要、待办事项和个人音频记忆数据库,用户可搜索和检索之前可能遗忘的讨论内容。AI驱动的总结、任务创建和信息回忆功能需要订阅云服务才能使用,但具体价格和发布时间尚未公布。
语音AI初创公司Subtle发布了一款售价199美元的无线耳机,主打在嘈杂环境中提供清晰通话和语音转录功能。该产品将在未来几个月内在美国发货,包含一年iOS和Mac应用订阅服务。耳机采用专用芯片,支持锁屏状态下唤醒iPhone,可在任何应用中进行语音输入。公司声称其转录错误率比AirPods Pro 3结合OpenAI转录模型低五倍。Subtle已筹集600万美元资金。
据报道,OpenAI计划在2026年第一季度发布新的音频语言模型,作为开发音频硬件设备的重要步骤。公司已重组工程、产品和研究团队,专注改进音频模型的准确性和速度。由于ChatGPT用户更偏好文本界面而非语音界面,OpenAI希望通过提升音频模型来改变用户习惯。公司计划推出智能音箱、眼镜等音频为主的物理设备产品线,首款音频设备预计一年内发货。
2025年AI语音听写应用迎来爆发式发展。相比过去速度慢、准确率低的传统听写应用,基于大语言模型和语音转文本技术的新一代应用在语音识别精度、上下文理解和文本格式化方面显著提升。本文精选了Wispr Flow、Willow、Monologue等8款优秀听写应用,涵盖不同价格区间和功能特色,包括本地化处理、多语言支持、自定义词汇等实用功能,为用户提供全面的选择指南。
研究员Jane Manchun Wong发现,Waymo正在测试将Google的Gemini AI聊天机器人集成到其无人驾驶出租车中,旨在为乘客提供AI助手服务。该助手能回答乘客问题、管理车内功能如温控,并在需要时安抚乘客。系统提示显示,该助手被设计为"友好有用的AI伙伴",能访问乘客信息并控制部分车内设备,但不包括音量、路线变更等功能。
研究表明,人们说话速度是打字速度的2.5倍,这个差距代表着大量时间浪费。现代AI语音转文字工具如Wispr Flow能够将口语思路转换为格式化文本,用户可在任何应用中用语音替代打字。这项技术让创业者随时随地记录灵感,摆脱键盘束缚,同时改善工作姿势。AI还能自动整理语音内容,将零散话语转为专业文档,大幅提升工作效率。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
Sandbar公司推出Stream Ring智能戒指,专为随时记录灵感而设计。用户只需轻触戒指并轻声说话,即可将想法转录为笔记。该产品采用个性化数字语音技术,创造如自言自语般的体验。不同于传统AI助手,Stream Ring专注于认知扩展而非替代思考。产品配备全天候电池,支持私密范围内的语音识别。银色版售价249美元,金色版299美元,计划2026年夏季发货。
谷歌Gemini应用迎来重要更新,新增音频文件处理功能。用户现在可以直接在应用中上传和处理各类音频文件,这一功能扩展大大提升了Gemini的多媒体处理能力,为用户提供更加全面的AI助手体验。
时光壶公司发布了全新的翻译耳机产品,这款耳机的最大特色是专为分享设计。用户可以与他人共享使用,实现实时语言翻译功能,打破语言沟通障碍。该产品采用先进的翻译技术,支持多种语言互译,为跨语言交流提供了便捷解决方案,特别适合旅行、商务会谈等场景使用。
亚马逊宣布收购AI可穿戴设备初创公司Bee,该公司开发了能记录用户所有对话的智能手环和Apple Watch应用。Bee产品售价49.99美元,通过监听对话为用户创建提醒和待办事项。此次收购显示亚马逊对可穿戴AI设备的兴趣,有别于其Echo音箱等家用语音助手产品。尽管Bee承诺保护用户隐私,但此类产品仍存在安全和隐私风险,特别是在被整合到亚马逊生态系统后。
语音AI解决方案提供商Krisp发布了VIVA语音隔离AI模型和软件开发工具包,专为语音AI智能体设计。VIVA每月处理超过10亿分钟的语音音频,能在20毫秒内处理音频,将对话轮转准确性提升3.5倍,减少50%的通话中断。该工具可过滤背景噪音和笑声,避免AI误判,提升转录准确性和用户体验。
法国AI初创公司Mistral发布首个音频模型家族Voxtral,旨在为企业提供真正可用的语音智能解决方案。该模型可转录30分钟音频,理解40分钟内容,支持问答、摘要生成和语音命令执行。Voxtral支持英语、西班牙语、法语等8种语言,提供24B参数的Small版本和3B参数的Mini版本。定价从每分钟0.001美元起,声称成本不到同类方案的一半。
传统语音助手往往无法很好地服务于有语音障碍的用户。通过深度学习和迁移学习技术,新一代对话AI系统能够理解更广泛的语音模式。这些系统不仅能识别非标准语音,还能基于用户的语音样本生成个性化合成语音,帮助用户保持声音身份。实时语音增强技术能够改善发音、填补停顿,让AI成为对话中的助手。对于企业而言,构建包容性AI不仅是道德责任,也是巨大的市场机遇。