至顶网软件频道消息:Facebook使用Instagram上数十亿公开的照片来训练人工智能(AI)对图像自行分类的算法,这些照片包含Instagram用户提供的17000个井号标签。
训练计算机做人们通常做的事情——例如识别照片中的内容——通常需要为其提供大量数据。但这些数据必须由人类进行标记,而这是需要花费时间和成本的。Facebook开发了一种新技术,让员工不必坐下来对每张图片进行分类。
本周在美国加州圣何塞举行的Facebook F8大会上,Facebook首席技术官Mike Schroepfer表示:“在计算机视觉领域取得进步的最大限制因素——就和很多人工智能领域一样——就是我们几乎完全依赖于手动标记的、人为组织的数据集。这意味着,如果一个人没有花时间对图像中特定的事物做标记,即使是最先进的计算机视觉系统,也无法在运行时检测到该事物,因为系统在训练集中并没有看到这个事物。”
Schroepfer补充道:“我们已经开发了一些具有突破性的技术,可以以前所未有的规模对公开标签图像进行处理。我们已经使用一套公开的35亿张图像进行训练。”
根据Wired的说法,Instagram数据集比Google用来训练图像算法的巨大缓存还要大10倍。
Facebook应用机器学习部门工程总监Srinivas Narayanan补充说:“我们现在打造了世界上最好的计算机视觉系统,它在ImageNet上获得了84.5%的最高分数。ImageNet是一个广泛用于基准测试的数据集。”
Schroepfer说,Facebook已经在其平台上使用计算机视觉系统来发现需要删除的“坏内容”——可能包括裸体和与恐怖主义有关的内容。
好文章,需要你的鼓励
Meta超级智能实验室推出的SAM 3D模型,通过创新的"模型在环"数据标注流程和多阶段训练策略,成功实现从单张图像重建完整3D物体的能力。该研究打破了3D领域的数据壁垒,在真实世界场景中展现出远超现有方法的性能,为机器人、AR/VR、游戏制作等应用开启新可能。
香港中文大学等顶尖院校联合研究发现,当前最先进的AI视频生成技术已能制作出连顶级检测系统都无法识别的假视频。研究团队开发了Video Reality Test平台,测试结果显示最强生成模型Veo3.1-Fast的假视频仅有12.54%被识别,而最强检测系统Gemini 2.5-Pro准确率仅56%,远低于人类专家的81.25%。研究还发现检测系统过度依赖水印等表面特征,音频信息能提升检测准确性,但技术发展已对信息真实性判断带来严峻挑战。
AWS推出Transform Composability平台,帮助服务提供商构建专门处理大机云迁移的AI智能体。合作伙伴可将领域专业知识编码为可重用工具,自动化迁移过程同时保持核心系统功能。该平台将现代化时间从数年缩短至数月,相比传统方法可降低30%-40%成本。埃森哲、凯捷、IBM等公司已参与早期贡献。
Google DeepMind团队提出了革命性的"扩散预览"模式,通过ConsistencySolver技术实现AI图像生成的"预览+精修"工作流程。该技术能在5-10步内生成高质量预览图像,与传统40步完整生成保持高度一致性,用户体验测试显示总体时间节省近50%,大大提高了创作效率和创意探索的自由度。