企业AI：如何构建AI数据集

首先考虑企业已经拥有的、或者可以使用的、符合要求的数据和数据集。接下来，你需要决策点透明度，以及信号值来评估可用性、可行性和业务效果等因素，或者潜在表现与竞争对手相比的数据等。

寻找和获取构建企业数据集所需的数据，这对于那些希望构建自己的AI模型的组织来说是可能是最关键的一项任务。

咨询公司Rockborne首席执行官Waseem Ali表示，即使有实践经验，事情也很容易出错。“一切总是从数据开始的，如果你的数据不好，模型就不会好。”

相反他建议，很多时候，企业面临的挑战不应该是想要用他们的第一个项目征服世界，而是先进行试点，让他们能够走得更远。

检查数据或数字项目的具体业务需求和要求，询问需要解决什么问题，需要查询什么“预感”，但首先要避免深入研究“全局影响”。

正如工业物联网专业公司Hexagon的AI负责人Johannes Maunz所解释的，从第一原则开始着手获取特定用例的数据。

Maunz说：“没有一个深度学习模型可以解决所有用例。将现状与需要改进的地方进行比较，需要捕获哪些可用数据？以小规模或有限的方式进行，仅针对那一个用例。”

Hexagon的方法通常侧重于自己的传感器，其中包含墙壁、窗户、门等建筑的数据。通过在浏览器中呈现的内容，Hexagon可以了解数据及其标准、格式、一致性等。

首先考虑企业已经拥有的、或者可以使用的、符合要求的数据和数据集。这通常需要与法律和隐私团队密切合作，即使在工业内部环境中也是如此。Maunz建议，要确保指定使用的数据不包含任何私人个人信息。然后，企业就可以构建他们想要使用的模型并对其进行训练——假设成本和可行性都已经到位。

接下来，你需要决策点透明度，以及信号值来评估可用性、可行性和业务效果等因素，或者潜在表现与竞争对手相比的数据等。

对于企业目前没有的数据，可能需要一些合作伙伴或客户协商来获取。

Maunz表示：“坦率地说，人们是非常开放——但总要有一份合同。只有这样，我们才能开始我们通常所说的数据活动。有时候超过所需量的数据也是有意义的，这样企业就可以进行向下采样。”

数据质量和简单性至关重要

供应链咨询公司BearingPoint的合伙人Emile Naus强调了对AI/ML数据质量的关注。要尽可能保持简单，复杂性使正确的决策变得困难并且会损害结果——然后还有偏见和知识产权需要考虑。Naus补充说：“内部数据并不完美，但至少你可以了解它有多好。”

他警告说，与易于使用的2D线拟合甚至3D线拟合相比，由AI/ML驱动的复杂多维线拟合可以带来更好的结果——优化生产、解决方案“配方”、最大限度地减少浪费等等——如果企业能够“自由”地获取所需的数据。

“和所有的模型一样，因为AI模型被用于构建另一个模型，而模型总是出错，因此数据治理是关键。你没有的部分实际上可能更重要，你必须弄清楚数据的完整性和准确性。”

邓白氏（D&B）数据和分析高级副总裁Andy Crisp建议使用客户洞察和关键数据元素来建立数据质量标准和公差、测量和监控。

Crisp表示：“例如，[客户想要的、或从我们这里获得的]数据也可能会为他们的模型提供信息，我们正在进行大约460亿次数据质量计算，获取我们的数据，然后可能根据这些标准再次进行计算，然后每月发布数据质量观察结果。”

例如，通过特定标准，特定属性必须表现得足够好，才能传递给下一个团队，团队采用这些标准和公差、这些测量和观察点的结果，与数据管理部门合作获取、整理和维护数据。

“花时间做事并加深理解，别无他法。这就像，从切割一块木头开始，然后检查长度，防止接下来你完全错误地切割了50块木板。”

企业需要“知道什么是好的”，以提高数据性能和洞察力，然后将它们整合在一起。保持问题陈述的严谨性，缩小所需数据集的数据识别范围。细致的注释和元数据可以实现控制数据集的管理，实现真正科学的方法，识别偏差并帮助最大限度地减少偏差。

谨防将多个因素混为一谈的大胆陈述，确保要“测试到破坏”，这是IT企业不想“快速行动并打破常规”的一个领域。所有使用的数据都必须符合标准，而且必须不断检查和补救。

“测量和监控，补救和改进，”Crisp指出，邓白氏的质量工程团队是由全球约70名团队成员组成的，“高质量的工程能力将有助于减少幻觉等。”

Informatica北欧、中东和非洲地区副总裁Greg Hanson也认为，制定目标至关重要，可以帮助企业确定如何最好地利用时间进行信息编目、信息整合、训练AI以支持结果所需的数据。

即使是企业自己的数据通常也会分散并隐藏在不同位置、云或本地环境中。

Hanson说：“对所有数据资产进行编目，了解这些数据所在的位置，也可以考虑使用AI来加快数据管理的速度。”

确保在采集数据之前进行治理

在AI引擎采集数据之前要实施所有的数据质量规则，并假设已经采取了适当的治理和合规性。如果企业没有进行衡量、量化和修复，那么只会更快地做出错误决策，Hanson补充说：“记住：垃圾进，垃圾出。”

数据套件厂商Precisely的首席技术官Tendü Yogurtçu表示，根据规模和行业类型，企业可以考虑成立指导委员会或跨职能委员会，帮助定义所有相关AI计划的最佳实践和流程。也可以通过识别团队之间的常见用例或模式来帮助加速进程，随着组织从试点和生产中学习，这些用例或模式本身也会持续发生变化。

数据治理框架可能需要扩展以涵盖各种AI模型。话虽如此，潜在的AI用例比比皆是。

“以保险行业为例。为了模拟风险和定价准确性，保险公司需要有关野火和洪水风险、地块地形、地块内建筑物的确切位置、与消防栓的距离以及与加油站等潜在危险点的距离等详细信息，”Yogurtçu解释说。

然而，咨询公司Slalom的高级数据和分析负责人Richard Fayers警告称，构建AI模型（尤其是生成式AI）可能会花费不菲。

“也许，在某些领域企业可以合作——比如法律或医学，我们开始看到价值的地方，就是当你用你的数据增强生成式AI的时候——你可以用各种方法来实现它。”

例如，在建筑领域，用户可以使用自己的数据集和文档来补充大型语言模型，以供查询。类似做法还有票务搜索平台，平台可以智能地考虑一组基于自然语言的标准，这些标准并非与元数据和标签一一相关。

“例如，你可以使用一个票务平台来发现‘适合儿童观看的周末演出’，目前这种搜索类型是相当困难的，”Fayers说。

他说，即使是ChatGPT之类的数据集构建和提示工程，为了实现更有“对话性”的方法，仍然需要关注数据质量和治理，提示工程将成为一项需求旺盛的基本技能。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

企业AI：如何构建AI数据集

来源：至顶网软件与服务频道

2024

09/11

10:30

分享

点赞

亚马逊Mechanical Turk停止接受新用户，众包平台走向终结

微软推出Memora，致力于解决AI智能体的记忆难题

SGE计划在英国部署14座BWRX-300小型模块堆，总装机容量达4.2吉瓦

特斯拉在迈阿密划定Robotaxi小范围服务区，得克萨斯扩张仍受阻

Luxonis完成1400万美元融资，为智能自动化打造视觉感知层

.NET 8 与 .NET 9 即将停止支持，微软建议升级至 .NET 10

苹果供应商塔塔电子遭黑客攻击，iPhone 18 Pro核心机密外泄

美国解除对Anthropic旗下Fable 5和Mythos 5大语言模型的出口限制

Meta推出定制CXL芯片Vistara，让旧内存在新服务器中焕发新生

Bending Spoons完成180亿美元IPO，创始人谈如何将运气从成功方程式中剔除

浏览器大战进入新阶段：Chrome与Safari之外的最佳替代选择

华盛顿特区都会区迎来首批途中电动公交充电桩

PTC 推出生成式人工智能现场服务助理 ServiceMax AI

DigitalOcean 推出托管生成式 AI 平台，简化 AI 智能代理开发

AI新浪潮：聊聊正在兴起的大数据库模型

喜力：对数字创新做出新的承诺

2025年工作场所中生成式AI扩张带来的10大人力资源趋势

Gartner：目前仅8%的中国企业将生成式人工智能部署在生产环境中

美联航的生成式人工智能应用“起飞”

成本、安全性和灵活性：开源生成式AI的商业案例

生产力！AI生产力！全新AI生产力！

年终盘点：2024年最酷的10款开源软件工具

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: