寻找和获取构建企业数据集所需的数据,这对于那些希望构建自己的AI模型的组织来说是可能是最关键的一项任务。
咨询公司Rockborne首席执行官Waseem Ali表示,即使有实践经验,事情也很容易出错。“一切总是从数据开始的,如果你的数据不好,模型就不会好。”
相反他建议,很多时候,企业面临的挑战不应该是想要用他们的第一个项目征服世界,而是先进行试点,让他们能够走得更远。
检查数据或数字项目的具体业务需求和要求,询问需要解决什么问题,需要查询什么“预感”,但首先要避免深入研究“全局影响”。
正如工业物联网专业公司Hexagon的AI负责人Johannes Maunz所解释的,从第一原则开始着手获取特定用例的数据。
Maunz说:“没有一个深度学习模型可以解决所有用例。将现状与需要改进的地方进行比较,需要捕获哪些可用数据?以小规模或有限的方式进行,仅针对那一个用例。”
Hexagon的方法通常侧重于自己的传感器,其中包含墙壁、窗户、门等建筑的数据。通过在浏览器中呈现的内容,Hexagon可以了解数据及其标准、格式、一致性等。
首先考虑企业已经拥有的、或者可以使用的、符合要求的数据和数据集。这通常需要与法律和隐私团队密切合作,即使在工业内部环境中也是如此。Maunz建议,要确保指定使用的数据不包含任何私人个人信息。然后,企业就可以构建他们想要使用的模型并对其进行训练——假设成本和可行性都已经到位。
接下来,你需要决策点透明度,以及信号值来评估可用性、可行性和业务效果等因素,或者潜在表现与竞争对手相比的数据等。
对于企业目前没有的数据,可能需要一些合作伙伴或客户协商来获取。
Maunz表示:“坦率地说,人们是非常开放——但总要有一份合同。只有这样,我们才能开始我们通常所说的数据活动。有时候超过所需量的数据也是有意义的,这样企业就可以进行向下采样。”
数据质量和简单性至关重要
供应链咨询公司BearingPoint的合伙人Emile Naus强调了对AI/ML数据质量的关注。要尽可能保持简单,复杂性使正确的决策变得困难并且会损害结果——然后还有偏见和知识产权需要考虑。Naus补充说:“内部数据并不完美,但至少你可以了解它有多好。”
他警告说,与易于使用的2D线拟合甚至3D线拟合相比,由AI/ML驱动的复杂多维线拟合可以带来更好的结果——优化生产、解决方案“配方”、最大限度地减少浪费等等——如果企业能够“自由”地获取所需的数据。
“和所有的模型一样,因为AI模型被用于构建另一个模型,而模型总是出错,因此数据治理是关键。你没有的部分实际上可能更重要,你必须弄清楚数据的完整性和准确性。”
邓白氏(D&B)数据和分析高级副总裁Andy Crisp建议使用客户洞察和关键数据元素来建立数据质量标准和公差、测量和监控。
Crisp表示:“例如,[客户想要的、或从我们这里获得的]数据也可能会为他们的模型提供信息,我们正在进行大约460亿次数据质量计算,获取我们的数据,然后可能根据这些标准再次进行计算,然后每月发布数据质量观察结果。”
例如,通过特定标准,特定属性必须表现得足够好,才能传递给下一个团队,团队采用这些标准和公差、这些测量和观察点的结果,与数据管理部门合作获取、整理和维护数据。
“花时间做事并加深理解,别无他法。这就像,从切割一块木头开始,然后检查长度,防止接下来你完全错误地切割了50块木板。”
企业需要“知道什么是好的”,以提高数据性能和洞察力,然后将它们整合在一起。保持问题陈述的严谨性,缩小所需数据集的数据识别范围。细致的注释和元数据可以实现控制数据集的管理,实现真正科学的方法,识别偏差并帮助最大限度地减少偏差。
谨防将多个因素混为一谈的大胆陈述,确保要“测试到破坏”,这是IT企业不想“快速行动并打破常规”的一个领域。所有使用的数据都必须符合标准,而且必须不断检查和补救。
“测量和监控,补救和改进,”Crisp指出,邓白氏的质量工程团队是由全球约70名团队成员组成的,“高质量的工程能力将有助于减少幻觉等。”
Informatica北欧、中东和非洲地区副总裁Greg Hanson也认为,制定目标至关重要,可以帮助企业确定如何最好地利用时间进行信息编目、信息整合、训练AI以支持结果所需的数据。
即使是企业自己的数据通常也会分散并隐藏在不同位置、云或本地环境中。
Hanson说:“对所有数据资产进行编目,了解这些数据所在的位置,也可以考虑使用AI来加快数据管理的速度。”
确保在采集数据之前进行治理
在AI引擎采集数据之前要实施所有的数据质量规则,并假设已经采取了适当的治理和合规性。如果企业没有进行衡量、量化和修复,那么只会更快地做出错误决策,Hanson补充说:“记住:垃圾进,垃圾出。”
数据套件厂商Precisely的首席技术官Tendü Yogurtçu表示,根据规模和行业类型,企业可以考虑成立指导委员会或跨职能委员会,帮助定义所有相关AI计划的最佳实践和流程。也可以通过识别团队之间的常见用例或模式来帮助加速进程,随着组织从试点和生产中学习,这些用例或模式本身也会持续发生变化。
数据治理框架可能需要扩展以涵盖各种AI模型。话虽如此,潜在的AI用例比比皆是。
“以保险行业为例。为了模拟风险和定价准确性,保险公司需要有关野火和洪水风险、地块地形、地块内建筑物的确切位置、与消防栓的距离以及与加油站等潜在危险点的距离等详细信息,”Yogurtçu解释说。
然而,咨询公司Slalom的高级数据和分析负责人Richard Fayers警告称,构建AI模型(尤其是生成式AI)可能会花费不菲。
“也许,在某些领域企业可以合作——比如法律或医学,我们开始看到价值的地方,就是当你用你的数据增强生成式AI的时候——你可以用各种方法来实现它。”
例如,在建筑领域,用户可以使用自己的数据集和文档来补充大型语言模型,以供查询。类似做法还有票务搜索平台,平台可以智能地考虑一组基于自然语言的标准,这些标准并非与元数据和标签一一相关。
“例如,你可以使用一个票务平台来发现‘适合儿童观看的周末演出’,目前这种搜索类型是相当困难的,”Fayers说。
他说,即使是ChatGPT之类的数据集构建和提示工程,为了实现更有“对话性”的方法,仍然需要关注数据质量和治理,提示工程将成为一项需求旺盛的基本技能。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。