Snowflake的新探索：用生成式AI实现数据合成与自然语言查询

代人工智能（AI）的基本原理就是识别数据模式，并据此回答问题或预测接下来会发生什么。因此像OpenAI ChatGPT这样的生成式AI，也完全可以用于创建更多遵循其训练数据规则的新数据。

相信大家都听说过，如今这一代生成式AI工具已经能生成与人类水平相当的文字、图片甚至视频。

但是，您知道它也能用于生成数据本身吗？

现代人工智能（AI）的基本原理就是识别数据模式，并据此回答问题或预测接下来会发生什么。因此像OpenAI ChatGPT这样的生成式AI，也完全可以用于创建更多遵循其训练数据规则的新数据。

数据就是力量、数据就是财富，但真实数据往往也充满复杂性——收集过度往往相当困难、成本很高，同时会带来安全和隐私等潜在挑战。

例如，假设要建立一套可用于人脸识别算法的、包含成千上万面部图像的训练数据集，我们就得找到同等数量的真人拍下照片，并获得他们的许可以存储并使用这些数据。此外，我们还得进行一系列检验和调整，确保数据内容不存在有害偏见。

解决这类难题的思路之一就是合成数据。这是指由机器创建的数据，跟现实世界中的数据非常相似，在不少应用场景下可以直接相互替代。

Snowflake是全球最大的“数据即服务”厂商之一，除分析服务之外，还提供涵盖医疗保健、金融、零售等数千个主题的数据市场。

如今，Snowflake希望通过AI生成的合成数据集进一步增强自家产品，并将生成式AI广泛应用于其他应用场景。下面一起来看！

第一个问题，什么是合成数据？

合成数据是指人为生成的信息，其既具备与真实数据集相同的特征，又不具体包含任何现实世界数据。

生成式AI就特别适合处理这项任务，因为它能轻松分析任何数据集，之后创建出与其模式密切匹配的合成数据。也就是说，企业可以训练AI算法并执行测试和模拟，又不必担心像使用现实世界数据那样暴露私人或敏感信息。

合成数据有着广泛的用途，例如在金融领域用于训练欺诈检测算法以发现伪造交易，在医疗保健领域避免使用敏感的患者数据，并可在零售/营销领域用于创建合成客户并分析其购买行为。

根据Gartner公司的研究，受到可访问性、复杂性和可用性等现实问题的影响，企业领导者往往更倾向于使用合成数据、而非真实数据。研究还发现，部分合成数据集（即经过合成数据增强的现实世界数据）的使用范围往往比全合成数据集更广。

通过生成合成数据，企业可以创建任何必要信息，用以填补现有记录中的空白或创建全新数据集。这并不是在否定现实世界数据的重要性，毕竟合成数据的创建前提就是以现实世界数据为基础。但如果能够有效运用，合成数据将帮助我们降低成本、加快机器学习模型的训练速度，并帮助企业实现自动化、做出更佳决策。

Snowflake借生成式AI之力创建合成数据

Snowflake拥有专门的数据市场，将大量宝贵咨询出售给世界各地的企业，并借此成为全球最大的B2B数据经纪公司之一。

除了数以千计的现实世界数据集之外，Snowflake现在还提供由生成式AI算法创建的合成数据集资源。其中一例就是旧金山Synthesis AI公司的合成人脸数据集，其中包含5000张不同面孔的独立图像。

过去，由于担心用于训练人脸识别算法的数据集存在偏差/偏见，此类算法一度受到批评甚至被明令禁止。人们认为人脸识别算法在识别不同种族的对象时存在性能波动，而且经常出现不公平或偏见性判断。

使用合成数据明显有助于解决这些问题（但请注意，并不能说就完全解决了这些问题），因为开发者可以根据实际需求，创建出包含各种特征和包容性级别的数据集。

虽然合成数据在生成式AI出现之前就已经存在，但这种新型生成算法的发展成熟，意味着我们能够将合成数据集快速扩展至任意规模。以这种方式创建的数据集还能进行轻松定制，满足世界各地不同客户的实际需求。

Snowflake还提供来自Clearbox AI的合成财务数据，其中包含用于反映合法及欺诈应用活动的模拟抵押贷款信息。在生成式AI创建的合成数据的扩充之下，这些数据集已经变得愈发完备。

Snowflake方面明确表示，预计AI生成的合成数据将在其未来业务中发挥重要作用。随着大语言模型（LLM）等生成模型变得更加复杂，相信这些成果将带来更能准确反映现实世界的合成数据，帮助企业获取成本更低廉、效果更显著的分析见解。

Snowflake的其他生成式AI应用思路

除了为AI生成的合成数据开放访问通道之外，Snowflake还开发出多种供客户使用的生成式AI工具。

凭借今年内对Neeva（一家由谷歌前员工创立的搜索初创公司）的收购，Snowflake开始尝试在数据集上实现自然语言查询。也就是说，用户将有机会与自己的数据直接对话，通过提出简单问题、而非运行复杂的传统数据科学分析来快速获取见解。Snowflake公司CEO Frank Slootman在采访中表示，“这种用自然语言处理数据的方式正变得越来越流行……以此为基础，更多非技术用户也将有机会从数据当中提取价值。”

Snowflake还与英伟达建立起合作伙伴关系，利用后者提供的NeMo LLM创建平台，让用户能够轻松开发出可访问Snowflake数据的聊天机器人、搜索引擎等生成式AI应用。

另一项大语言模型举措则是建立文档AI工具，允许用户查询文档（例如法律合同或发票）并提取个中含义。其中使用的技术，源自Snowflake于2022年收购的瑞典自然语言平台Applica。

可以看出，Snowflake显然是对生成式AI技术寄予厚望，希望能够高效创建合成数据，并开发出更多分析协助工具以从数据中提取价值。我们也有理由相信，当下的这一切探索和努力将为整个数据科学行业翻开全新的篇章。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

Snowflake的新探索：用生成式AI实现数据合成与自然语言查询

来源：至顶网软件与服务频道

2023

09/18

17:23

分享

点赞

全新搜索方式出现，字节发布宽度优先搜索基准WideSearch，垫底的竟是DeepSeek

AI编程工具表现不佳，未来或将迎来重大转机

你的下一位同事可能是具身机器人

GitHub CEO离任，微软直接接管代码托管平台

AI承诺的机遇掩盖了有序替代的现实

负责任的AI始于负责任的领导力

告别SaaS：智能体平台公司时代已来

英伟达发布Cosmos世界模型及机器人基础设施

戴尔和HPE基于英伟达Blackwell架构扩展AI基础设施产品线

Reddit封锁互联网档案馆阻止AI公司数据抓取

2025年软件供应链面临的最大挑战

Ocean推出Gmail生产力管理新应用

PTC 推出生成式人工智能现场服务助理 ServiceMax AI

DigitalOcean 推出托管生成式 AI 平台，简化 AI 智能代理开发

重磅！微软发布新AI Agent，集成在office全家桶、自动化时代来了

AI新浪潮：聊聊正在兴起的大数据库模型

喜力：对数字创新做出新的承诺

2025年工作场所中生成式AI扩张带来的10大人力资源趋势

Gartner：目前仅8%的中国企业将生成式人工智能部署在生产环境中

美联航的生成式人工智能应用“起飞”

成本、安全性和灵活性：开源生成式AI的商业案例

生产力！AI生产力！全新AI生产力！

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: