2019年4月10日,阿克拉(Accra)万豪酒店里非洲第一个人工智能中心的一名工人站在谷歌人工智能中心(加纳)的横幅前。 (摄影:CRISTINA ALDEHUELA /法新社/Getty Images)
所谓的数据贴标者可以说是数字世界的建筑工人。非洲数据贴标者准备的信息是硅谷人工智能工作的重要组成部分。谷歌、微软、Salesforce和雅虎等公司用的是Samasource。而Samasource是一家美国公司,雇用肯尼亚一些最贫穷的科技工人来创建人工智能培训数据和图像信息。可以说,如果没有人类标签,人工智能就一无是处,那么,科技公司是否会继续拿捏好将成为全球经济中最具活力部分的离岸产业的尺度呢?
数据标签是机器学习的必要组成部分,这些公司显然有足够的动机使用世界上最低工资地区的工人。再加上2018年人工智能数据准备的市场已达5亿美元,据Cognilytic的资料,该市场预计到2023年底将达到12亿美元(https://www.cognilytica.com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/)。
Samasource公司给Kenyan AI数据贴标者(https://www.bbc.com/news/technology-46055595 )提供的“生活工资”为每天约9美元,CultureBanx(https://www.culturebanx .com / cbx-weekly-24/2019/5/26/google-amp-microsoft-banking-on-africas-ai-labeling-workforce)指出,Kenyan普通工人的工资为每天约3美元,但9美元对于大型科技公司而言仍然是小钱。这些公司要找美国数据标签专家在这个价位上做这种无聊、重复、永无止境的工作是很难的。这样的低工资工作不仅仅仅出现在非洲,东南亚也有。
微软的Mary Gary告诉记者,这些工人发挥的作用很重要,而经济学家们却没有办法解决市场定价的问题(https://www.axios.com/the-ai- sharecroppers-b316d333-ce00-47a1 -afd5-219d6138461e.html)。Gary表示, “我们一直把这种劳动定价为耐用货品,但它却是价值主张的集体智慧。”
大型科技公司提供这些代工的主要原因是,数据准备和工程任务消耗的时间占了大多数人工智能和机器学习项目的80%以上。时间就是金钱,这些公司自然不想付很多钱给重复贴标签的人。
就连英特尔的数据科学负责人Gary也指出,将这些职位外包是一种常见的做法,她表示,“常规的拥有适当数据科学领导地位的公司已经将数据科学家和数据工程师或数据贴标人之间区分开来,而且会经常聘请供应商进行数据注释工作。 ”
当人工智能按预期那样工作时,许多科技公司都会赞不绝口,但亮丽的外表必须有一个庞大的人工智能低工资劳动力基础支撑。这些低工资劳动力要上传图像,然后识别图里的人、动物、建筑物、汽车、其他标志甚至天空上的东西等等。在对数百万个图像执行了这种操作后,人工智能系统才可以开始在现实世界中识别这些对象。
人类不会很快从人工智能圈子里数据标记和人工智能质量控制这一块消失。而这些非洲工人正在帮助创建的技术要用在他们所居住的社区也还需要一段时间。这些劳动力中的许多人常常生活在贫困线以下,他们将继续为新型的、关乎人工智能数据支持的蓝领产业加油出力。
好文章,需要你的鼓励
Mirage向我们展示了一个令人兴奋的未来——一个AI不仅能理解我们说什么,还能理解我们如何说的世界。在这个世界里,技术不再是冰冷的工具,而是能够理解和模拟人类情感表达的智能伙伴。
微软研究院联合北京大学、清华大学提出"强化预训练"新方法,让AI在预测下一个词前先进行深度思考推理。该技术将传统的模式匹配升级为真正的逻辑推理,显著提升了语言模型的预测准确性和推理能力,为人工智能从"背诵"向"理解"的转变开辟了新路径。
Oracle 凭借云服务需求激增实现营收超预期增长,主要由非 AI 云服务需求推动。该公司 2025 年第四季度营收达 159 亿美元,同比增长 11%,云基础设施服务表现突出,营收 30 亿美元,增长 50%。Oracle 董事长拉里·埃里森表示,最近收到一笔前所未有的订单,客户要求获得所有可用容量,无论位于何处。
上海交通大学与StepFun联合推出的OneIG-Bench是AI图像生成领域首个全维度评测基准,涵盖语义对齐、文字渲染、知识推理、风格化、多语言等六大维度,包含超过2400个测试案例。该研究对19个顶级AI模型进行了史上最全面的对比评测,发现GPT-4o综合表现最佳,Seedream 3.0在文字渲染方面独领风骚,揭示了当前AI模型的优势与不足,为未来技术发展指明了方向。