联想和巴西累西腓高级研究与系统中心(CESAR)开发了一款基于人工智能(AI)的应用程序,能够为听力正常的人“翻译”手语。
根据巴西地理与统计研究所 (IBGE) 数据显示,巴西有超过 230 万人因严重耳聋而面临沟通困难,他们使用巴西手语 (Libra) 和葡萄牙手语 (LGP) 以及几种地区手语为方言。这一挑战的规模和复杂性促使联想启动了为期五年的研发项目,投资额超过 400 万美元。

联想和CESAR利用包含数千个巴西手语视频的数据库,开发了一项获得专利的人工智能技术,能够以视觉方式识别个人手势并将其置于上下文中。CESAR 和联想将该举措描述为世界首创,具有普遍应用的潜力。
联想巴西研发总监 Hildebrando Lima 在接受《福布斯》采访时表示:“我们相信,对这些人的影响将比在线翻译对书面语言的影响更大。”
Lima指出:“在在线翻译之前,已经有了在线词典,但它们并没有解决许多人在理解符号时面临的困难——有时是由于缺乏练习或缺乏学习材料和讲师”,并补充说这项技术将会崩溃当这些障碍充分发展时。
实时聊天翻译工具允许听力障碍者对设备的摄像头进行签名,然后算法将其立即翻译成葡萄牙语文本,供另一方的接收者使用。人工智能及其附带的数据库不是单独翻译每个手势,而是通过分析手部轮廓以及最重要的是手语者骨骼的数字枢轴点来识别手部形状。通过准确处理这些动作,该算法可以识别句子结构并将其转换为葡萄牙语的文本。
该系统基于深度学习神经网络,架构类似于GPT-3等模型,用于葡萄牙语到巴西手语的翻译和识别,便于实时手语翻译。为了生成手语视频,这些组织使用生成对抗网络 (GAN) 模型创建了一个合成口译员(类人虚拟化身)。
然而,CESAR 高级技术数据科学家经理 Vitor Casadei 表示,应用程序的复杂性要求开发人工智能系统来自动执行众多任务。“例如,团队精心设计的计算机视觉系统促进了训练数据库(用于训练标志识别模型的记录)的创建”,该高管指出。
一个由 80 人组成的团队(其中包括 5 名听力障碍专业人员)参与了该项目以及该系统所服务的社区。Casadei说:“除了团队中的聋人专业人士之外,听力障碍社区的参与对于该项目也至关重要。”他补充说,有数十名聋人参与了该工具的设计、验证和测试过程。
全球意义
联想的计划是将系统的使用扩展到全球其他手语,利用正在申请专利的程序,利用不同手语之间的共性来加快学习过程。
“多项研究表明,手语与口语有一些共同点。我们开发了一种技术,考虑到这一事实,因此可以利用[巴西手语]培训中学到的知识,加速学习其他手语,取得了非常有希望的成果”,CESAR 的Casadei说。
联想的 Lima 表示,计划到 2024/25 年将该项目扩展到国际市场,首先是拉丁美洲和美国。“我们认为(美国)的用例需求非常相似”,该高管表示。
虽然最初的重点在于银行和零售等领域,但最终目标是在任何公共服务环境中部署应用程序,无论是虚拟的、物理的还是混合的。此外,联想还计划向开发者社区提供软件开发套件(SDK),进一步推动听力障碍解决方案的开发。
隐私也是整个项目开发过程中的一个关键问题。所有参与者,从参与记录的参与者到参与验证和测试的参与者,都签署了一份文件,授权将其贡献用于研究,符合巴西的通用数据保护条例 (LGPD)。
CESAR 的 Casadei表示,为了保护用户隐私,这些模型被设计为仅从摄像头捕获用于识别标志的基本数据,例如手形或身体动作。该高管指出:“从该数据集中无法识别特定人员,这确保了通用数据保护条例合规性,同时尊重用户隐私。”
随着越来越多的人使用该工具,该工具将不断得到改进。这些练习将涉及不断添加标志记录、收集用户反馈以及改进应用程序的校准过程。CESAR 首席执行官表示:“该团队还开始了一些主动学习(一种让学生通过讨论、解决问题和角色扮演进行互动学习的教学方法)的实验,尽管仍有许多工作要做,但取得了可喜的成果”。
CESAR 和联想还探索了该工具在教育领域的潜力,特别是在手语教学方面。这些公司已提交了该领域的多项专利,目前正在接受审查。虽然手语“翻译器”目前不包括针对能说话但听不见的用户的语音识别功能,但这是未来发展持续讨论的话题。
最终,该系统旨在促进聋哑人作为沟通者而不只是接受者积极参与,打破现有障碍并促进更具包容性的社会。Lima总结道:“我们完全相信这项技术将彻底改变听力和听力障碍者之间的互动。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。