至顶网软件频道消息:英国皇家历史学会最近透露,学会利用人工智能算法进行的首次研究显示,英国的劳动力存在“大规模性别偏差”。基于人工智能的系统搜集了整个英国互联网上的资料,排查了现有男女职位的分布。该项研究调研了108个不同的经济行业后发现,其中87%的行业存在倾向于男性的不平等,导致任高层领导职位的男性不成比例。
这项开创性研究很好地说明了人工智能在阐释我们的世界时具有极大的潜力,毕竟,人工智能的一个强大功能就是分析超大量的数据并在其中找到我们人类无法找到的模式。不过,虽然人工智能可以帮助发现偏差和不公平,但实际上人工智能也可能导致更多偏差和不公平。
来看一下以下的例子:加纳裔美国计算机科学家Joy Buolamwini(https://twitter.com/jovialjoy?lang=en)现在是麻省理工学院媒体实验室的罗德学者和研究员,她以前读研究生时发现她使用的人工智能面部识别系统无法识别她的脸。而只有在她戴上白色面具后系统才能确认她的存在。在Buolamwini案例中,面部识别系统不能识别她,因为用于训练软件的数据池里大部分是白色面孔,而且缺乏足够的多样性。换句话说,问题始于数据本身,人工智能系统要从这个有缺陷的数据集合里学习,系统越来越“智能”时,问题也就会挥之不去。其实,实际的系统会变得越来越笨,因为偏差本身会进一步强化偏差。Buolamwini发起了算法正义联盟(https://www.ajlunited.org/)计划,计划旨在推动大家对人工智能偏差的关注及培训组织实行最佳人工智能实践。Buolamwini希望借计划推动更公平、更道德的人工智能方法,这一使命在人工智能驱动决策制定的时代显得尤其重要。
一众企业不仅必须重新定位数据集和算法培训,还必须重新定位围绕人工智能的流程和人员。(图:美联社)
含偏差的人工智能也扩展到了其他领域,如刑事司法、招聘和招聘等等。IBM发表的一份研究报告提出,已经定义和分了类的人类偏差达180之多,每种偏差都可以干扰判断及影响最终决策。人工智能则很容易复制这些偏差。假定一家公司要利用人工智能来确定员工的工资,定工资的标准部分基于薪酬历史。这就可能会令女性处于相当不利的地位(https://www.brookings.edu/blog/techtank/2019/01/03/artificial- intelligence-and-bias-four-key-challenges/),基本就是因为她们过去一直受到歧视。再例如,推荐引擎也会从用户的偏好中学习并提出相应的建议。
各个组织要如何才能确定自己及人工智能系统所依赖的数据确实是合适的?而且不会强化歧视模式呢?
与许多其他问题一样,克服问题的第一步是承认问题的存在。企业不仅必须重新定位数据集和算法培训,还必须重新定位围绕人工智能的流程和人员。我们希望有一个更公平的工作场所,在这个过程中解决这些问题就至关重要。我们必须有专门的团队和流程,甚至可能需要创建诸如“首席偏差官”这样的职位,首席偏差官的工作就是审查数据并确保严格的道德标准,人工智能工具将会在我们的工作环境里越来越普及,首席偏差官的任务是与偏差和偏见做斗争。
例如,首席偏差官可以通过推动多样化,影响工程团队的招聘,然后再定期检查工程师为人工智能算法选用的数据输入。这是“人员就是政策”的一个例子。要认识到人工智能并非绝对可靠,这一点很重要,拙劣的输入意味着拙劣的输出。首席偏差官要定期进行绩效评估,要针对可查算法输出进行控制测试及持续微调。
各组织需确保多种背景的使用,多种背景可以防止扭曲和盲点。 Buolamwini本人则建议组织要检查不同偏差集的算法 ,一系列不同的视角可以加强这方面的工作,可以减少偏差数据及确保更公平的算法代码。
修复算法偏差需要管理层、人力资源和工程师的共同努力,三方面合作才能有效地将有意识和无意识的人类偏见排除在系统之外。人类的愚笨是永远无法完全消除的,但认识了人类的愚笨后,我们就可以打造更公平、更聪慧的人工智能系统,可以真正令我们的工作场所决策少一些人工、多一些智能。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。