相信大家都听说过,如今这一代生成式AI工具已经能生成与人类水平相当的文字、图片甚至视频。
但是,您知道它也能用于生成数据本身吗?
现代人工智能(AI)的基本原理就是识别数据模式,并据此回答问题或预测接下来会发生什么。因此像OpenAI ChatGPT这样的生成式AI,也完全可以用于创建更多遵循其训练数据规则的新数据。
数据就是力量、数据就是财富,但真实数据往往也充满复杂性——收集过度往往相当困难、成本很高,同时会带来安全和隐私等潜在挑战。
例如,假设要建立一套可用于人脸识别算法的、包含成千上万面部图像的训练数据集,我们就得找到同等数量的真人拍下照片,并获得他们的许可以存储并使用这些数据。此外,我们还得进行一系列检验和调整,确保数据内容不存在有害偏见。
解决这类难题的思路之一就是合成数据。这是指由机器创建的数据,跟现实世界中的数据非常相似,在不少应用场景下可以直接相互替代。
Snowflake是全球最大的“数据即服务”厂商之一,除分析服务之外,还提供涵盖医疗保健、金融、零售等数千个主题的数据市场。
如今,Snowflake希望通过AI生成的合成数据集进一步增强自家产品,并将生成式AI广泛应用于其他应用场景。下面一起来看!
第一个问题,什么是合成数据?
合成数据是指人为生成的信息,其既具备与真实数据集相同的特征,又不具体包含任何现实世界数据。
生成式AI就特别适合处理这项任务,因为它能轻松分析任何数据集,之后创建出与其模式密切匹配的合成数据。也就是说,企业可以训练AI算法并执行测试和模拟,又不必担心像使用现实世界数据那样暴露私人或敏感信息。
合成数据有着广泛的用途,例如在金融领域用于训练欺诈检测算法以发现伪造交易,在医疗保健领域避免使用敏感的患者数据,并可在零售/营销领域用于创建合成客户并分析其购买行为。
根据Gartner公司的研究,受到可访问性、复杂性和可用性等现实问题的影响,企业领导者往往更倾向于使用合成数据、而非真实数据。研究还发现,部分合成数据集(即经过合成数据增强的现实世界数据)的使用范围往往比全合成数据集更广。
通过生成合成数据,企业可以创建任何必要信息,用以填补现有记录中的空白或创建全新数据集。这并不是在否定现实世界数据的重要性,毕竟合成数据的创建前提就是以现实世界数据为基础。但如果能够有效运用,合成数据将帮助我们降低成本、加快机器学习模型的训练速度,并帮助企业实现自动化、做出更佳决策。
Snowflake借生成式AI之力创建合成数据
Snowflake拥有专门的数据市场,将大量宝贵咨询出售给世界各地的企业,并借此成为全球最大的B2B数据经纪公司之一。
除了数以千计的现实世界数据集之外,Snowflake现在还提供由生成式AI算法创建的合成数据集资源。其中一例就是旧金山Synthesis AI公司的合成人脸数据集,其中包含5000张不同面孔的独立图像。
过去,由于担心用于训练人脸识别算法的数据集存在偏差/偏见,此类算法一度受到批评甚至被明令禁止。人们认为人脸识别算法在识别不同种族的对象时存在性能波动,而且经常出现不公平或偏见性判断。
使用合成数据明显有助于解决这些问题(但请注意,并不能说就完全解决了这些问题),因为开发者可以根据实际需求,创建出包含各种特征和包容性级别的数据集。
虽然合成数据在生成式AI出现之前就已经存在,但这种新型生成算法的发展成熟,意味着我们能够将合成数据集快速扩展至任意规模。以这种方式创建的数据集还能进行轻松定制,满足世界各地不同客户的实际需求。
Snowflake还提供来自Clearbox AI的合成财务数据,其中包含用于反映合法及欺诈应用活动的模拟抵押贷款信息。在生成式AI创建的合成数据的扩充之下,这些数据集已经变得愈发完备。
Snowflake方面明确表示,预计AI生成的合成数据将在其未来业务中发挥重要作用。随着大语言模型(LLM)等生成模型变得更加复杂,相信这些成果将带来更能准确反映现实世界的合成数据,帮助企业获取成本更低廉、效果更显著的分析见解。
Snowflake的其他生成式AI应用思路
除了为AI生成的合成数据开放访问通道之外,Snowflake还开发出多种供客户使用的生成式AI工具。
凭借今年内对Neeva(一家由谷歌前员工创立的搜索初创公司)的收购,Snowflake开始尝试在数据集上实现自然语言查询。也就是说,用户将有机会与自己的数据直接对话,通过提出简单问题、而非运行复杂的传统数据科学分析来快速获取见解。Snowflake公司CEO Frank Slootman在采访中表示,“这种用自然语言处理数据的方式正变得越来越流行……以此为基础,更多非技术用户也将有机会从数据当中提取价值。”
Snowflake还与英伟达建立起合作伙伴关系,利用后者提供的NeMo LLM创建平台,让用户能够轻松开发出可访问Snowflake数据的聊天机器人、搜索引擎等生成式AI应用。
另一项大语言模型举措则是建立文档AI工具,允许用户查询文档(例如法律合同或发票)并提取个中含义。其中使用的技术,源自Snowflake于2022年收购的瑞典自然语言平台Applica。
可以看出,Snowflake显然是对生成式AI技术寄予厚望,希望能够高效创建合成数据,并开发出更多分析协助工具以从数据中提取价值。我们也有理由相信,当下的这一切探索和努力将为整个数据科学行业翻开全新的篇章。
好文章,需要你的鼓励
DeepSeek 发布了新的大语言模型系列 R1,专为推理任务优化。该系列包括两个主要模型 R1 和 R1-Zero,采用混合专家架构,拥有 6710 亿参数。R1 在多项推理基准测试中超越了 OpenAI 的 o1 模型,而 R1-Zero 则代表了机器学习研究的重大进展。DeepSeek 已在 Hugging Face 上开源了这些模型的源代码。
国家机器人研究中心与 Freshwave 公司合作,利用私有 5G 网络测试农业机器人。这项合作旨在提升农业生产力,预计到 2026 年农业科技产业规模将达到 156 亿英镑。私有 5G 网络将为农业机器人提供高速、低延迟的连接,实现实时数据分析和精准农业操作,有望彻底改变农业生产方式。
Cognizant 推出了神经 AI 多代理加速器和服务套件,旨在帮助企业快速开发和部署 AI 代理。该技术通过预构建的代理网络模板和无代码框架,实现了跨职能的可扩展性和自主决策能力。这一创新有望推动 AI 代理在企业工作流程中的广泛应用,促进人机协作,提升业务效率和适应性。
西部数据公司财务总监Wissam Jabre将于2月28日辞职,恰逢公司分拆为硬盘和固态硬盘两个独立业务。公司正在寻找新的财务总监。尽管面临闪存业务定价环境更具挑战性,公司第二财季收入预计仍将达到43亿美元,同比增长42%。分析师认为硬盘业务表现强劲,可能抵消了闪存业务的部分疲软。