2019年4月10日,阿克拉(Accra)万豪酒店里非洲第一个人工智能中心的一名工人站在谷歌人工智能中心(加纳)的横幅前。 (摄影:CRISTINA ALDEHUELA /法新社/Getty Images)
所谓的数据贴标者可以说是数字世界的建筑工人。非洲数据贴标者准备的信息是硅谷人工智能工作的重要组成部分。谷歌、微软、Salesforce和雅虎等公司用的是Samasource。而Samasource是一家美国公司,雇用肯尼亚一些最贫穷的科技工人来创建人工智能培训数据和图像信息。可以说,如果没有人类标签,人工智能就一无是处,那么,科技公司是否会继续拿捏好将成为全球经济中最具活力部分的离岸产业的尺度呢?
数据标签是机器学习的必要组成部分,这些公司显然有足够的动机使用世界上最低工资地区的工人。再加上2018年人工智能数据准备的市场已达5亿美元,据Cognilytic的资料,该市场预计到2023年底将达到12亿美元(https://www.cognilytica.com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/)。
Samasource公司给Kenyan AI数据贴标者(https://www.bbc.com/news/technology-46055595 )提供的“生活工资”为每天约9美元,CultureBanx(https://www.culturebanx .com / cbx-weekly-24/2019/5/26/google-amp-microsoft-banking-on-africas-ai-labeling-workforce)指出,Kenyan普通工人的工资为每天约3美元,但9美元对于大型科技公司而言仍然是小钱。这些公司要找美国数据标签专家在这个价位上做这种无聊、重复、永无止境的工作是很难的。这样的低工资工作不仅仅仅出现在非洲,东南亚也有。
微软的Mary Gary告诉记者,这些工人发挥的作用很重要,而经济学家们却没有办法解决市场定价的问题(https://www.axios.com/the-ai- sharecroppers-b316d333-ce00-47a1 -afd5-219d6138461e.html)。Gary表示, “我们一直把这种劳动定价为耐用货品,但它却是价值主张的集体智慧。”
大型科技公司提供这些代工的主要原因是,数据准备和工程任务消耗的时间占了大多数人工智能和机器学习项目的80%以上。时间就是金钱,这些公司自然不想付很多钱给重复贴标签的人。
就连英特尔的数据科学负责人Gary也指出,将这些职位外包是一种常见的做法,她表示,“常规的拥有适当数据科学领导地位的公司已经将数据科学家和数据工程师或数据贴标人之间区分开来,而且会经常聘请供应商进行数据注释工作。 ”
当人工智能按预期那样工作时,许多科技公司都会赞不绝口,但亮丽的外表必须有一个庞大的人工智能低工资劳动力基础支撑。这些低工资劳动力要上传图像,然后识别图里的人、动物、建筑物、汽车、其他标志甚至天空上的东西等等。在对数百万个图像执行了这种操作后,人工智能系统才可以开始在现实世界中识别这些对象。
人类不会很快从人工智能圈子里数据标记和人工智能质量控制这一块消失。而这些非洲工人正在帮助创建的技术要用在他们所居住的社区也还需要一段时间。这些劳动力中的许多人常常生活在贫困线以下,他们将继续为新型的、关乎人工智能数据支持的蓝领产业加油出力。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
微软研究院提出潜在分区网络(LZN),首次实现生成建模、表示学习和分类任务的真正统一。该框架通过共享高斯潜在空间和创新的潜在对齐机制,让原本独立的AI任务协同工作。实验显示LZN不仅能增强现有模型性能,还能独立完成各类任务,多任务联合训练效果更是超越单独训练。这项研究为构建下一代通用AI系统提供了新的架构思路。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
上海AI实验室开发的VLAC模型让机器人首次具备真实世界自主学习能力。该系统如同给机器人配备智能导师,能实时评估动作效果并从中学习。在四个操作任务测试中,机器人成功率从30%提升至90%,仅需200次练习。技术结合视觉、语言理解和动作生成,支持跨场景适应和人机协作,为家庭服务、医疗护理等领域应用奠定基础。