至顶网软件频道消息:Facebook使用Instagram上数十亿公开的照片来训练人工智能(AI)对图像自行分类的算法,这些照片包含Instagram用户提供的17000个井号标签。
训练计算机做人们通常做的事情——例如识别照片中的内容——通常需要为其提供大量数据。但这些数据必须由人类进行标记,而这是需要花费时间和成本的。Facebook开发了一种新技术,让员工不必坐下来对每张图片进行分类。
本周在美国加州圣何塞举行的Facebook F8大会上,Facebook首席技术官Mike Schroepfer表示:“在计算机视觉领域取得进步的最大限制因素——就和很多人工智能领域一样——就是我们几乎完全依赖于手动标记的、人为组织的数据集。这意味着,如果一个人没有花时间对图像中特定的事物做标记,即使是最先进的计算机视觉系统,也无法在运行时检测到该事物,因为系统在训练集中并没有看到这个事物。”
Schroepfer补充道:“我们已经开发了一些具有突破性的技术,可以以前所未有的规模对公开标签图像进行处理。我们已经使用一套公开的35亿张图像进行训练。”
根据Wired的说法,Instagram数据集比Google用来训练图像算法的巨大缓存还要大10倍。
Facebook应用机器学习部门工程总监Srinivas Narayanan补充说:“我们现在打造了世界上最好的计算机视觉系统,它在ImageNet上获得了84.5%的最高分数。ImageNet是一个广泛用于基准测试的数据集。”
Schroepfer说,Facebook已经在其平台上使用计算机视觉系统来发现需要删除的“坏内容”——可能包括裸体和与恐怖主义有关的内容。
好文章,需要你的鼓励
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AI虽具备变革企业洞察力的潜力,但成功依赖于数据质量。大多数AI项目失败源于数据混乱分散而非算法局限。谷歌BigQuery云数据AI平台打破数据孤岛,简化治理,加速企业AI应用。通过AI自动化数据处理,实现实时分析,并与Vertex AI深度集成,使企业能够高效处理结构化和非结构化数据,将智能商业转型从愿景变为现实。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。