ZD至顶网软件频道消息: 分析机构对维基百科机器人的一项调查已经证实,自动化编辑软件可以像人类一样迂腐和琐碎。我们知道,这样的在线口水战经常会持续很长时间。
据悉,机器人的行为有所不同,这取决于他们工作的维基百科的语言版本:基于它们最终处理的文化和主题,因此,有一些机器人变得更具争议。
机器人已经在全球的网络里漫游了20多年了。其中一些功能确实有用,但不排除还有一些则是没用的。例如,喷出种族主义辱骂言辞和垃圾邮件,或者在约会网站上扮成漂亮的女人。
对此,牛津大学和英国的The Alan Turing Institute研究人员今天在《PLOS ONE》上发表的论文将互联网机器人分为两类:仁慈的和恶毒的。
其中,维基百科的机器人被归类为仁慈的,因为它们帮助编辑文章、识别并清理恶意破坏、检查拼写、自动导入信息,并识别侵权行为。例如,在2014年,多达15%的编辑工作是由机器人完成的。该论文的第一作者、Oxford Internet Institute的研究员Milena Tsvetkova博士表示:"我们发现机器人在不同的文化环境中行为也不同,它们之间的冲突也与人类编辑之间的冲突不同。
当人类或机器人通过恢复文章的早期版本推翻了另一个编辑的贡献,Tsvetkova和她的团队发现了自动单词争论软件之间冲突的领域。文章指出,"与人类相比,机器人编辑还原的比例要小得多,而被还原的比例更小。"
在十年期间,英语维基百科上的每个机器人平均还原另一个机器人的编辑105次,比人类的平均值多三倍。这在葡萄牙语版本上更糟糕,在大约十年间,每个机器人平均还原另一个机器人的工作185次。在德国版本上,机器人彼此之间相处更加愉快,每个机器人改变另一个机器人的工作在超过十年的时间里,平均只有24次。
维基百科语言版本之间的区别是可以解释的:例如,葡萄牙语机器人比德语机器人更加活跃而且编辑更多的文章。Oxford Internet Institute的论文和研究员的共同作者Taha Yasseri教授表示,文化多样性也是一个因素。被设计以相同方式工作的机器人,或使用相同的代码的机器人,有时会在不同的文化和语言点上不同意彼此的意见。而一些文化挑起了更多的争论和编辑战争。
Yasseri教授对《The Register》表示,"研究结果表明,即使是同样的技术也会带来不同的结果,这取决于文化环境。"
"一辆自动驾驶汽车在德国高速公路上的行驶方式与通过意大利托斯卡纳山脉的方式不同,同样地,搭建在当地基础架构上的网络机器人也会在行为和性能受到一些影响。机器人是由来自不同国家的人类设计出来的,所以当它们彼此相遇,可能会导致网上的冲突。"
"最受机器人争议的文章是关于佩尔韦兹·穆沙拉夫(Pervez Musharraf,巴基斯坦前总统)、乌兹别克斯坦、爱沙尼亚、白俄罗斯、阿拉伯语、Niels Bohr和阿诺德·施瓦辛格的。"
这并不是说所有的机器人都是以相同的方式编程的,引起机器人口水战主要还是因为软件和主题组合。 Yasseri教授补充说:"我们看到不同的维基百科语言版本中使用的技术的差异,维基百科编辑的社区的不同文化涉及创建复杂的交互。这种复杂性是一个考虑在任何会话中考虑使用自动化和人工智能的基本问题。"
Wiki机器人不是唯一受文化差异影响的半智能代理。微软的中国机器人小冰,和在美国的那个满嘴脏话的机器人Tay相比,简直是一个天使。有人发现了Tay的后门命令短语,并利用它教了Tay很多脏话。行为的对比可以通过仔细观察这两个国家的互联网规则来解释。
似乎人工智能的世界并不是特别友好。 DeepMind最近的一项实验表明,人工智能机器人是由竞争驱动的,对于诉诸暴力并不会有任何良心上的不安。
好文章,需要你的鼓励
这项研究针对现代文档检索系统中的关键缺陷:独立处理文档片段导致丢失上下文信息。研究团队开发了ConTEB基准测试来评估模型利用文档级上下文的能力,并提出了InSeNT方法,结合后期分块和创新的对比学习策略。实验表明,上下文感知嵌入显著提升检索性能,尤其在处理非自包含文本片段时,同时保持计算效率,对分块策略更具鲁棒性,并且在语料库规模扩大时表现更佳。这一研究为更智能的文档检索系统铺平了道路。
这项由布朗大学和Cohere实验室研究者联合进行的研究全面分析了大型语言模型(LLM)安全研究中的语言不平等现象。通过系统回顾近300篇2020-2024年间的安全相关论文,研究发现LLM安全研究严重偏向英语,即使中文这样的高资源语言也仅获得英语十分之一的研究关注,且这一差距正在扩大。研究还揭示非英语语言很少作为独立研究对象,且英语安全研究常忽略语言覆盖文档化。为解决这一问题,研究者提出了三个未来方向:开发文化敏感的评估基准、创建多语言安全训练数据,以及深入理解跨语言安全泛化挑战。
这项研究提出了ChARM,一种创新的角色扮演AI奖励建模框架,通过行为自适应边界和自我进化策略大幅提升AI角色的真实性和一致性。研究团队创建了包含1,108个角色的RoleplayPref数据集,实验表明ChARM比传统模型提高了13%的偏好排名准确率,应用于DPO技术后在多项基准测试中达到了领先水平。这一突破将为娱乐、教育和心理健康支持等领域带来更加自然、个性化的AI互动体验。
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。