7月7日,由外交部、国家发展改革委、教育部、科技部、工业和信息化部、国家网信办、中国科学院、中国科协和上海市政府共同主办的2024世界人工智能大会(WAIC 2024)盛大收官。作为中国和全球人工智能前沿技术的重要展示平台,WAIC 2024融汇全球人工智能领域前沿思想,链接全球科技创新生态,持续探索人工智能发展新机遇并推动成果落地。
高质量的训练数据始终是人工智能产业链上的重要一环。自2019年始,澳鹏Appen(中国)已连续6届参与这一人工智能产业盛会,与产业链各环节领袖共商人工智能领域前沿技术、产业动向、向善治理。今年,澳鹏Appen(中国)很荣幸携技术驱动的双平台再次重磅亮相本次大会,展示如何以专业、精准、安全的高质量训练数据赋能AI+,助力各行业、各领域AI模型的高效开发和落地。
WAIC 2024 澳鹏展位前人头攒动
澳鹏大模型智能开发平台
澳鹏大模型智能开发平台支持大模型定制开发的全流程需求,集大模型数据准备、训练、推理、部署应用于一体,提供数据管理、模型调优、模型评估、模型管理等全栈产品,赋能医疗、金融、教育、代码、法律等多垂直领域的大模型部署,助力企业轻松拥抱大模型。
澳鹏大模型智能开发平台支持大模型定制开发的全流程需求
作为大模型产业链的基础环节,澳鹏Appen(中国)支持全栈式大模型数据服务,包括数据集、模型评估、模型调优、标注工具/训练平台部署、领域专家服务等;同时,平台集成的全套标注工具,如大模型智能体标注、多模态数据标注、基于LLM的自动标注能力等,紧跟市场技术前沿,是快速部署大模型应用的利器。
澳鹏支持全栈式大模型数据服务,包括数据集、模型评估、模型调优、标注工具/训练平台部署等
澳鹏提供700+个成品数据集,其中包括五万余小时ASR语音数据,一百六十万余张图片,81亿token、千万词条的大语言模型相关文本数据集。澳鹏多模态、多领域、多场景的丰富数据集可高效支持各类模型的各阶段训练。
澳鹏MatrixGo®高精度数据标注平台
持续优化数据精度是人工智能算法提升的关键。澳鹏MatrixGo®平台集成强大的标注工具箱和灵活、可视的工作流,具备多样化的平台部署方式和精细化的人力资源管理。AI行业领军者正在通过MatrixGo®平台强大的标注工具,大幅提升非结构化数据处理能力,赋能全球创新性AI项目部署。
澳鹏MatrixGo®高精度数据标注平台大幅提升非结构化数据处理能力
澳鹏MatrixGo®平台自动化数据标注回环,具备场景筛选 + 数据挖掘能力,为下游提供高质量预标注结果;通过引入交互式智能标注工具,人机协同提高标注效率;可自定义的自动化质检,实时反馈异常标注数据;动态迭代的模型推理能力,不断提升自动识别准确率,真正做到“以AI赋能AI”。
澳鹏MatrixGo®平台自动化数据标注回环
除了技术水平之外,澳鹏全球化的数据采集能力和多场景、定制化的数据标注服务是客户满意度的保障。澳鹏支持全数据类型的标注,包括大模型、图像视频、3D、语音、文本及内容相关性的标注;在全球范围拥有290+语言资源及100万+众包团队,澳鹏全球化的数据定制采集服务为AI部署提供数据保障。
数据,铸就非凡差异。一直以来,澳鹏Appen(中国)始终致力于以高质量的数据服务及持续不断的技术研发为全球领先人工智能的部署提供动力源泉。澳鹏Appen全球高级副总裁、大中国区及北亚区总经理田小鹏博士表示,“未来,澳鹏将持续以不断迭代的端到端数据平台、灵活高效的数据服务以及深厚的细分领域专业知识,铸就全球非凡的人工智能应用开发和落地,打造专业、精准、安全的高质量数据基石。”
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。