我最近有机会与IBM杰出工程师、IBM剑桥研究中心主任Lisa Amini博士讨论了当前的IBM人工智能发展,该实验室是MIT-IBM Watson AI实验室的所在地。Amini博士曾担任IBM纽约TJ Watson研究中心认知计算小组的知识与推理研究主管。Amini在哥伦比亚大学获得了计算机科学博士学位。Amini博士和她的团队隶属于IBM Research,任务是创建下一代Automated AI(自动化人工智能)和数据科学。
我对于自动化对人工智能和机器学习生命周期的影响感兴趣,并与Amini博士集中讨论了AutoAI的下一代功能。
AutoAI自动执行高度复杂的任务,为你的数据寻找并优化最好的机器学习模型、特征和模型超参数。AutoAI完成了原本需要专业数据科学家团队和其他专业资源才能完成的工作,而且速度要快得多。
人工智能建模颇具挑战性
“数据科学家想要多自动化?”
IBM构建人工智能和机器学习模型是一项涉及多方面的工作,涉及收集需求和将问题公式化。在模型训练开始之前,必须获取、评估数据,并对其进行预处理,以识别并纠正数据质量问题。
由于这个过程非常复杂,因此数据科学家和机器学习工程师通常会创建机器学习管道将这些步骤连接在一起,以便在每次优化数据和模型时重复使用。管道为模型训练、测试、部署及推理处理数据清理和操控。构建和调整管道不仅复杂,而且还是一项劳动密集型的工作。它需要一个训练有素的资源团队,他们要了解数据科学,还要有了解模型目的和输出的主题专家。
这是一个漫长的过程,因为要做出很多设计选择,并且要对各种数据处理和模型阶段进行无数的优化调整。
管道的高度复杂性使其成为自动化的首要对象。
IBM AutoAI在人工智能全生命周期中自动建模
Amini博士表示,AutoAI可以在几分钟内完成通常需要整个数据科学家团队数个小时到数天才能完成的工作。自动化功能包括数据准备、模型开发、特征工程和超参数优化。
整个建模过程端到端的自动化可以显著节省资源。以下是AutoAI的部分功能列表:
AutoAI显著提高了生产力。只需点击几下鼠标,即使是只有基本数据科学技能的人,也可以使用自定义数据自动选择、训练并调优高性能机器学习模型。
然而,专业的数据科学家可以快速迭代可能的模型和管道,并试验最新的模型、特征工程技术和公平算法。无需从头开始编写管道代码就可以完成这一切。
未来的人工智能自动化项目
IBM Research正在开展多个下一代人工智能自动化项目,例如处理新数据类型的下一代算法,实现新的自动化质量和公平性,并显著提高规模和性能。
Amini博士深入探讨了两个特别有趣的、用于扩展企业人工智能的下一代功能:AutoAI for Decisions和Semantic Data Science。
用于改进决策的AutoAI
时间序列预测是最流行但也是最困难的预测分析之一。它使用历史数据来预测未来结果出现的时间。时间序列预测通常用于财务计划、库存和产能规划。数据集的时间维度使分析变得困难并且需要更高级的数据处理。
IBM的AutoAI产品已经支持时间序列预测。它自动执行以下步骤来构建预测模型:
Amini博士解释说,在许多环境中,创建时间序列预测之后,下一步是利用预测来改进决策。
例如,数据科学家可能会建立一个时间序列预测模型预测产品需求,但是该模型也可以作为库存补货决策的输入,通过减少成本高昂的大量库存积压或者避免由于库存告罄造成的销售损失,实现利润最大化。
有时,我们会用简单的启发式方法进行库存补货决策,例如决定何时应该补货以及补货的数量。在另一些情况下,我们会用被称为决策优化的更系统的方法来构建规范性模型,以补充时间序列预测模型。
规范性分析(与预测性分析相反)使用复杂的数学建模技术和数据结构进行决策优化,并利用供应短缺的专业知识。然而,像AutoAI生成预测模型那样直接根据数据自动化生成决策优化管道的产品目前还不存在。
多模型管道
Amini博士解释说,同时使用机器学习和决策优化才能得到最好的结果。为了支持该功能,IBM的研究人员正在开发多模型管道,以适应预测性模型和规范性模型的需求。多模型将允许业务分析师和数据科学家使用通用模型从各自的角度讨论问题的各个方面。这样的产品还将促进和改善不同但同样重要的资源之间的协作。
深度强化学习自动化
现在可通过IBM Research的Early Access计划获得为决策模型自动生成管道的新功能。它利用深度强化学习来学习从数据到决策策略的端到端模型。这项名为AutoDO(自动决策优化)的技术利用强化学习(RL)模型,让数据科学家能够训练机器学习模型,在不确定的情况下执行顺序决策。强化学习(RL)的自动化至关重要,因为RL算法对内部超参数高度敏感。因此,它们需要大量的专业知识和手动工作对它们进行调整,以适应特定的问题和数据集。
Amini博士解释说,该技术会根据数据和问题自动选择使用最好的强化学习模型。它还可以使用高级搜索策略,为模型选择最佳的超参数配置。
该系统可以自动搜索历史数据集或任何兼容的环境,以自动生成、调整最佳RL管道,并对它们进行排名。该系统支持各种类型的强化学习,包括在线和离线学习以及无模型和基于模型的算法。
自动扩展人工智能
强化学习自动化解决了在企业中扩展人工智能的两个紧迫问题。
首先,它为顺序决策问题提供了自动化,在这类问题中,不确定性可能会削弱启发式甚至是不使用历史数据的正规优化模型。
其次,它为具有挑战性的强化学习模型构建领域带来了一种自动化、系统化的方法。
Semantic Data Science(语义数据科学)
AutoAI之类最先进的自动化机器学习产品可以有效地分析历史数据,创建自定义机器学习管道并对其进行排名。它包括自动化特征工程——可扩展和增强数据的特征空间以优化模型性能。自动化方法目前依靠统计技术来探索特征空间。
但是,如果数据科学家理解了数据的语义,就有可能利用领域知识来扩展特征空间,从而提高模型准确性。这种扩展可以使用来自内部或外部数据源的补充数据来完成。特征空间是用于表征数据的一组特征。例如,如果数据是关于汽车的,则特征空间可能是福特、特斯拉、宝马。
可以在现有的python脚本或者文献中描述的关系中找到补充的特征转换。尽管如此,要知道哪些特征和转换是相关的,用户必须具备足够的技术技能来破译和翻译代码和文档。
数据科学家的新语义能力
Amini博士介绍了IBM Research创建的另一个强大的新功能,该功能被称为Semantic Data Science(语义数据科学),它可以自动监测给定数据集的语义概念。语义概念表征概念,帮助理解单词和句子,从而提供了一种表达含义的方式。一旦AutoAI检测到正确的语义概念,程序就会使用这些概念广泛搜索现有代码、数据和文献中可能存在的相关特征和特征工程操作。
AutoAI可以使用这些新的、语义丰富的特征来提高生成模型的准确性,并通过这些生成的特征提供可供人类阅读的解释。
即使没有评估这些语义概念或者新功能的专业知识,数据科学家们还是可以试用AutoAI。但是,想要理解发现的语义概念并与之交互的数据科学家可以使用Semantic Feature Discovery(语义特征发现)可视化资源管理器来探索发现的关系。
用户只需单击Sources超链接,即可直接从可视化资源管理器进入新功能生成的Python代码或文档,如下图所示。
IBM Research Early Access产品也包含了Semantic Data Science功能。甚至可以在IBM的API Hub上试用其中一些功能。
Amini博士用一句话总结了IBM对AutoAI投入的大量研究工作,并以此结束了我们的谈话:
“我们希望AutoAI和Semantic Data Science去做专家数据科学家想做、但是因为没有时间或者不具备专业知识而不总是能够自己完成的事情。”
要点总结
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。