ZD至顶网软件频道消息: 分析机构对维基百科机器人的一项调查已经证实,自动化编辑软件可以像人类一样迂腐和琐碎。我们知道,这样的在线口水战经常会持续很长时间。
据悉,机器人的行为有所不同,这取决于他们工作的维基百科的语言版本:基于它们最终处理的文化和主题,因此,有一些机器人变得更具争议。
机器人已经在全球的网络里漫游了20多年了。其中一些功能确实有用,但不排除还有一些则是没用的。例如,喷出种族主义辱骂言辞和垃圾邮件,或者在约会网站上扮成漂亮的女人。
对此,牛津大学和英国的The Alan Turing Institute研究人员今天在《PLOS ONE》上发表的论文将互联网机器人分为两类:仁慈的和恶毒的。
其中,维基百科的机器人被归类为仁慈的,因为它们帮助编辑文章、识别并清理恶意破坏、检查拼写、自动导入信息,并识别侵权行为。例如,在2014年,多达15%的编辑工作是由机器人完成的。该论文的第一作者、Oxford Internet Institute的研究员Milena Tsvetkova博士表示:"我们发现机器人在不同的文化环境中行为也不同,它们之间的冲突也与人类编辑之间的冲突不同。
当人类或机器人通过恢复文章的早期版本推翻了另一个编辑的贡献,Tsvetkova和她的团队发现了自动单词争论软件之间冲突的领域。文章指出,"与人类相比,机器人编辑还原的比例要小得多,而被还原的比例更小。"
在十年期间,英语维基百科上的每个机器人平均还原另一个机器人的编辑105次,比人类的平均值多三倍。这在葡萄牙语版本上更糟糕,在大约十年间,每个机器人平均还原另一个机器人的工作185次。在德国版本上,机器人彼此之间相处更加愉快,每个机器人改变另一个机器人的工作在超过十年的时间里,平均只有24次。
维基百科语言版本之间的区别是可以解释的:例如,葡萄牙语机器人比德语机器人更加活跃而且编辑更多的文章。Oxford Internet Institute的论文和研究员的共同作者Taha Yasseri教授表示,文化多样性也是一个因素。被设计以相同方式工作的机器人,或使用相同的代码的机器人,有时会在不同的文化和语言点上不同意彼此的意见。而一些文化挑起了更多的争论和编辑战争。
Yasseri教授对《The Register》表示,"研究结果表明,即使是同样的技术也会带来不同的结果,这取决于文化环境。"
"一辆自动驾驶汽车在德国高速公路上的行驶方式与通过意大利托斯卡纳山脉的方式不同,同样地,搭建在当地基础架构上的网络机器人也会在行为和性能受到一些影响。机器人是由来自不同国家的人类设计出来的,所以当它们彼此相遇,可能会导致网上的冲突。"
"最受机器人争议的文章是关于佩尔韦兹·穆沙拉夫(Pervez Musharraf,巴基斯坦前总统)、乌兹别克斯坦、爱沙尼亚、白俄罗斯、阿拉伯语、Niels Bohr和阿诺德·施瓦辛格的。"
这并不是说所有的机器人都是以相同的方式编程的,引起机器人口水战主要还是因为软件和主题组合。 Yasseri教授补充说:"我们看到不同的维基百科语言版本中使用的技术的差异,维基百科编辑的社区的不同文化涉及创建复杂的交互。这种复杂性是一个考虑在任何会话中考虑使用自动化和人工智能的基本问题。"
Wiki机器人不是唯一受文化差异影响的半智能代理。微软的中国机器人小冰,和在美国的那个满嘴脏话的机器人Tay相比,简直是一个天使。有人发现了Tay的后门命令短语,并利用它教了Tay很多脏话。行为的对比可以通过仔细观察这两个国家的互联网规则来解释。
似乎人工智能的世界并不是特别友好。 DeepMind最近的一项实验表明,人工智能机器人是由竞争驱动的,对于诉诸暴力并不会有任何良心上的不安。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。