至顶网软件频道消息: 人工智能模型首次在斯坦福大学(Stanford University)的阅读测试中超越人类,该阅读测试被用于衡量神经网络认知能力。
中国网络巨头阿里巴巴集团(Group Holding Ltd.)周一宣布,该公司研发部门开发的人工智能(AI)获得了82.44分的高分,这是创纪录的里程碑。与之相比较,人类参与者的成绩是82.304。在阿里巴巴的测试成绩最终确认后的第二天,微软公司用一个深度学习模型重复了这一壮举,并且获得了略微更高一点的成绩——82.65。
这个被称为斯坦福问答数据集(Stanford Question Answering Dataset)的测试包含了从500篇维基百科的文章中提取的超过10万个问题和答案。测试中所有的文字内容都是用自然语言写成,而不是使用了计算机更容易理解的结构化格式。因此,人工智能模型现在可以获得比人类更好的分数代表了一项重大的技术成就。
一个能够以类似于人类的准确程度理解书面材料的深度学习模型有很多潜在的应用。阿里巴巴研究团队的自然语言处理首席科学家司罗(音译:Luo Si)将客户服务和医疗保健列为该技术可能会被证明是特别有用的两大领域。
科技行业也正在其他方面努力地推进人工智能。8月份,微软的研究人员透露,他们已经开发了一个能够抄录文本的语音识别系统,错误率仅为5.1%,与人类的平均水平相当。
与此同时,阿里巴巴正在积极争取在人工智能军备竞赛中获得超越同行的优势。三个月前,该公司宣布计划在未来三年投资150亿美元用于工程技术。这项工作将特别重视深度学习等对其长期发展计划非常重要的技术。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。