2019年4月10日,阿克拉(Accra)万豪酒店里非洲第一个人工智能中心的一名工人站在谷歌人工智能中心(加纳)的横幅前。 (摄影:CRISTINA ALDEHUELA /法新社/Getty Images)
所谓的数据贴标者可以说是数字世界的建筑工人。非洲数据贴标者准备的信息是硅谷人工智能工作的重要组成部分。谷歌、微软、Salesforce和雅虎等公司用的是Samasource。而Samasource是一家美国公司,雇用肯尼亚一些最贫穷的科技工人来创建人工智能培训数据和图像信息。可以说,如果没有人类标签,人工智能就一无是处,那么,科技公司是否会继续拿捏好将成为全球经济中最具活力部分的离岸产业的尺度呢?
数据标签是机器学习的必要组成部分,这些公司显然有足够的动机使用世界上最低工资地区的工人。再加上2018年人工智能数据准备的市场已达5亿美元,据Cognilytic的资料,该市场预计到2023年底将达到12亿美元(https://www.cognilytica.com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/)。
Samasource公司给Kenyan AI数据贴标者(https://www.bbc.com/news/technology-46055595 )提供的“生活工资”为每天约9美元,CultureBanx(https://www.culturebanx .com / cbx-weekly-24/2019/5/26/google-amp-microsoft-banking-on-africas-ai-labeling-workforce)指出,Kenyan普通工人的工资为每天约3美元,但9美元对于大型科技公司而言仍然是小钱。这些公司要找美国数据标签专家在这个价位上做这种无聊、重复、永无止境的工作是很难的。这样的低工资工作不仅仅仅出现在非洲,东南亚也有。
微软的Mary Gary告诉记者,这些工人发挥的作用很重要,而经济学家们却没有办法解决市场定价的问题(https://www.axios.com/the-ai- sharecroppers-b316d333-ce00-47a1 -afd5-219d6138461e.html)。Gary表示, “我们一直把这种劳动定价为耐用货品,但它却是价值主张的集体智慧。”
大型科技公司提供这些代工的主要原因是,数据准备和工程任务消耗的时间占了大多数人工智能和机器学习项目的80%以上。时间就是金钱,这些公司自然不想付很多钱给重复贴标签的人。
就连英特尔的数据科学负责人Gary也指出,将这些职位外包是一种常见的做法,她表示,“常规的拥有适当数据科学领导地位的公司已经将数据科学家和数据工程师或数据贴标人之间区分开来,而且会经常聘请供应商进行数据注释工作。 ”
当人工智能按预期那样工作时,许多科技公司都会赞不绝口,但亮丽的外表必须有一个庞大的人工智能低工资劳动力基础支撑。这些低工资劳动力要上传图像,然后识别图里的人、动物、建筑物、汽车、其他标志甚至天空上的东西等等。在对数百万个图像执行了这种操作后,人工智能系统才可以开始在现实世界中识别这些对象。
人类不会很快从人工智能圈子里数据标记和人工智能质量控制这一块消失。而这些非洲工人正在帮助创建的技术要用在他们所居住的社区也还需要一段时间。这些劳动力中的许多人常常生活在贫困线以下,他们将继续为新型的、关乎人工智能数据支持的蓝领产业加油出力。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。