相信大家都听说过,如今这一代生成式AI工具已经能生成与人类水平相当的文字、图片甚至视频。
但是,您知道它也能用于生成数据本身吗?
现代人工智能(AI)的基本原理就是识别数据模式,并据此回答问题或预测接下来会发生什么。因此像OpenAI ChatGPT这样的生成式AI,也完全可以用于创建更多遵循其训练数据规则的新数据。
数据就是力量、数据就是财富,但真实数据往往也充满复杂性——收集过度往往相当困难、成本很高,同时会带来安全和隐私等潜在挑战。
例如,假设要建立一套可用于人脸识别算法的、包含成千上万面部图像的训练数据集,我们就得找到同等数量的真人拍下照片,并获得他们的许可以存储并使用这些数据。此外,我们还得进行一系列检验和调整,确保数据内容不存在有害偏见。
解决这类难题的思路之一就是合成数据。这是指由机器创建的数据,跟现实世界中的数据非常相似,在不少应用场景下可以直接相互替代。
Snowflake是全球最大的“数据即服务”厂商之一,除分析服务之外,还提供涵盖医疗保健、金融、零售等数千个主题的数据市场。
如今,Snowflake希望通过AI生成的合成数据集进一步增强自家产品,并将生成式AI广泛应用于其他应用场景。下面一起来看!
第一个问题,什么是合成数据?
合成数据是指人为生成的信息,其既具备与真实数据集相同的特征,又不具体包含任何现实世界数据。
生成式AI就特别适合处理这项任务,因为它能轻松分析任何数据集,之后创建出与其模式密切匹配的合成数据。也就是说,企业可以训练AI算法并执行测试和模拟,又不必担心像使用现实世界数据那样暴露私人或敏感信息。
合成数据有着广泛的用途,例如在金融领域用于训练欺诈检测算法以发现伪造交易,在医疗保健领域避免使用敏感的患者数据,并可在零售/营销领域用于创建合成客户并分析其购买行为。
根据Gartner公司的研究,受到可访问性、复杂性和可用性等现实问题的影响,企业领导者往往更倾向于使用合成数据、而非真实数据。研究还发现,部分合成数据集(即经过合成数据增强的现实世界数据)的使用范围往往比全合成数据集更广。
通过生成合成数据,企业可以创建任何必要信息,用以填补现有记录中的空白或创建全新数据集。这并不是在否定现实世界数据的重要性,毕竟合成数据的创建前提就是以现实世界数据为基础。但如果能够有效运用,合成数据将帮助我们降低成本、加快机器学习模型的训练速度,并帮助企业实现自动化、做出更佳决策。
Snowflake借生成式AI之力创建合成数据
Snowflake拥有专门的数据市场,将大量宝贵咨询出售给世界各地的企业,并借此成为全球最大的B2B数据经纪公司之一。
除了数以千计的现实世界数据集之外,Snowflake现在还提供由生成式AI算法创建的合成数据集资源。其中一例就是旧金山Synthesis AI公司的合成人脸数据集,其中包含5000张不同面孔的独立图像。
过去,由于担心用于训练人脸识别算法的数据集存在偏差/偏见,此类算法一度受到批评甚至被明令禁止。人们认为人脸识别算法在识别不同种族的对象时存在性能波动,而且经常出现不公平或偏见性判断。
使用合成数据明显有助于解决这些问题(但请注意,并不能说就完全解决了这些问题),因为开发者可以根据实际需求,创建出包含各种特征和包容性级别的数据集。
虽然合成数据在生成式AI出现之前就已经存在,但这种新型生成算法的发展成熟,意味着我们能够将合成数据集快速扩展至任意规模。以这种方式创建的数据集还能进行轻松定制,满足世界各地不同客户的实际需求。
Snowflake还提供来自Clearbox AI的合成财务数据,其中包含用于反映合法及欺诈应用活动的模拟抵押贷款信息。在生成式AI创建的合成数据的扩充之下,这些数据集已经变得愈发完备。
Snowflake方面明确表示,预计AI生成的合成数据将在其未来业务中发挥重要作用。随着大语言模型(LLM)等生成模型变得更加复杂,相信这些成果将带来更能准确反映现实世界的合成数据,帮助企业获取成本更低廉、效果更显著的分析见解。
Snowflake的其他生成式AI应用思路
除了为AI生成的合成数据开放访问通道之外,Snowflake还开发出多种供客户使用的生成式AI工具。
凭借今年内对Neeva(一家由谷歌前员工创立的搜索初创公司)的收购,Snowflake开始尝试在数据集上实现自然语言查询。也就是说,用户将有机会与自己的数据直接对话,通过提出简单问题、而非运行复杂的传统数据科学分析来快速获取见解。Snowflake公司CEO Frank Slootman在采访中表示,“这种用自然语言处理数据的方式正变得越来越流行……以此为基础,更多非技术用户也将有机会从数据当中提取价值。”
Snowflake还与英伟达建立起合作伙伴关系,利用后者提供的NeMo LLM创建平台,让用户能够轻松开发出可访问Snowflake数据的聊天机器人、搜索引擎等生成式AI应用。
另一项大语言模型举措则是建立文档AI工具,允许用户查询文档(例如法律合同或发票)并提取个中含义。其中使用的技术,源自Snowflake于2022年收购的瑞典自然语言平台Applica。
可以看出,Snowflake显然是对生成式AI技术寄予厚望,希望能够高效创建合成数据,并开发出更多分析协助工具以从数据中提取价值。我们也有理由相信,当下的这一切探索和努力将为整个数据科学行业翻开全新的篇章。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。