相信大家都听说过,如今这一代生成式AI工具已经能生成与人类水平相当的文字、图片甚至视频。
但是,您知道它也能用于生成数据本身吗?
现代人工智能(AI)的基本原理就是识别数据模式,并据此回答问题或预测接下来会发生什么。因此像OpenAI ChatGPT这样的生成式AI,也完全可以用于创建更多遵循其训练数据规则的新数据。
数据就是力量、数据就是财富,但真实数据往往也充满复杂性——收集过度往往相当困难、成本很高,同时会带来安全和隐私等潜在挑战。
例如,假设要建立一套可用于人脸识别算法的、包含成千上万面部图像的训练数据集,我们就得找到同等数量的真人拍下照片,并获得他们的许可以存储并使用这些数据。此外,我们还得进行一系列检验和调整,确保数据内容不存在有害偏见。
解决这类难题的思路之一就是合成数据。这是指由机器创建的数据,跟现实世界中的数据非常相似,在不少应用场景下可以直接相互替代。
Snowflake是全球最大的“数据即服务”厂商之一,除分析服务之外,还提供涵盖医疗保健、金融、零售等数千个主题的数据市场。
如今,Snowflake希望通过AI生成的合成数据集进一步增强自家产品,并将生成式AI广泛应用于其他应用场景。下面一起来看!
第一个问题,什么是合成数据?
合成数据是指人为生成的信息,其既具备与真实数据集相同的特征,又不具体包含任何现实世界数据。
生成式AI就特别适合处理这项任务,因为它能轻松分析任何数据集,之后创建出与其模式密切匹配的合成数据。也就是说,企业可以训练AI算法并执行测试和模拟,又不必担心像使用现实世界数据那样暴露私人或敏感信息。
合成数据有着广泛的用途,例如在金融领域用于训练欺诈检测算法以发现伪造交易,在医疗保健领域避免使用敏感的患者数据,并可在零售/营销领域用于创建合成客户并分析其购买行为。
根据Gartner公司的研究,受到可访问性、复杂性和可用性等现实问题的影响,企业领导者往往更倾向于使用合成数据、而非真实数据。研究还发现,部分合成数据集(即经过合成数据增强的现实世界数据)的使用范围往往比全合成数据集更广。
通过生成合成数据,企业可以创建任何必要信息,用以填补现有记录中的空白或创建全新数据集。这并不是在否定现实世界数据的重要性,毕竟合成数据的创建前提就是以现实世界数据为基础。但如果能够有效运用,合成数据将帮助我们降低成本、加快机器学习模型的训练速度,并帮助企业实现自动化、做出更佳决策。
Snowflake借生成式AI之力创建合成数据
Snowflake拥有专门的数据市场,将大量宝贵咨询出售给世界各地的企业,并借此成为全球最大的B2B数据经纪公司之一。
除了数以千计的现实世界数据集之外,Snowflake现在还提供由生成式AI算法创建的合成数据集资源。其中一例就是旧金山Synthesis AI公司的合成人脸数据集,其中包含5000张不同面孔的独立图像。
过去,由于担心用于训练人脸识别算法的数据集存在偏差/偏见,此类算法一度受到批评甚至被明令禁止。人们认为人脸识别算法在识别不同种族的对象时存在性能波动,而且经常出现不公平或偏见性判断。
使用合成数据明显有助于解决这些问题(但请注意,并不能说就完全解决了这些问题),因为开发者可以根据实际需求,创建出包含各种特征和包容性级别的数据集。
虽然合成数据在生成式AI出现之前就已经存在,但这种新型生成算法的发展成熟,意味着我们能够将合成数据集快速扩展至任意规模。以这种方式创建的数据集还能进行轻松定制,满足世界各地不同客户的实际需求。
Snowflake还提供来自Clearbox AI的合成财务数据,其中包含用于反映合法及欺诈应用活动的模拟抵押贷款信息。在生成式AI创建的合成数据的扩充之下,这些数据集已经变得愈发完备。
Snowflake方面明确表示,预计AI生成的合成数据将在其未来业务中发挥重要作用。随着大语言模型(LLM)等生成模型变得更加复杂,相信这些成果将带来更能准确反映现实世界的合成数据,帮助企业获取成本更低廉、效果更显著的分析见解。
Snowflake的其他生成式AI应用思路
除了为AI生成的合成数据开放访问通道之外,Snowflake还开发出多种供客户使用的生成式AI工具。
凭借今年内对Neeva(一家由谷歌前员工创立的搜索初创公司)的收购,Snowflake开始尝试在数据集上实现自然语言查询。也就是说,用户将有机会与自己的数据直接对话,通过提出简单问题、而非运行复杂的传统数据科学分析来快速获取见解。Snowflake公司CEO Frank Slootman在采访中表示,“这种用自然语言处理数据的方式正变得越来越流行……以此为基础,更多非技术用户也将有机会从数据当中提取价值。”
Snowflake还与英伟达建立起合作伙伴关系,利用后者提供的NeMo LLM创建平台,让用户能够轻松开发出可访问Snowflake数据的聊天机器人、搜索引擎等生成式AI应用。
另一项大语言模型举措则是建立文档AI工具,允许用户查询文档(例如法律合同或发票)并提取个中含义。其中使用的技术,源自Snowflake于2022年收购的瑞典自然语言平台Applica。
可以看出,Snowflake显然是对生成式AI技术寄予厚望,希望能够高效创建合成数据,并开发出更多分析协助工具以从数据中提取价值。我们也有理由相信,当下的这一切探索和努力将为整个数据科学行业翻开全新的篇章。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。