AI项目的失败往往跟大麻烦无关,而是由一个个微小细节所决定。面对种种激动人心的可能性,企业在最初启动AI项目时往往信心满满。但具体实施过程中的现实问题很容易熄灭这份热情,导致AI项目被搁置甚至最终失败。而引发失败的常见问题之一,就是组织缺乏对项目长期成本的准确考量。管理层只核算出了项目的初始成本,却没注意到后期的维护与更新开销。
研究企业Cognilytica就对数百个失败的AI项目做出全面分析,意识到很多组织没有意识到AI项目生命周期的连续性。组织通常只会为项目的前几轮迭代分配预算,包括数据准备、清洗、模型训练、数据标记、模型评估和迭代需求等,但却没能为持续实施的迭代工作保持预算供应。另外,组织还必须持续监控模型和数据衰减,根据需求重新训练模型,并考虑未来进一步扩展和迭代。随着时间推移,这必然导致组织对AI项目的投资回报率产生预期偏差甚至失调。
在考量模型的连续迭代成本时,大家到底经历了怎样的思考过程?大多数组织面临的挑战是,他们往往把AI项目视为一次性概念验证或试点应用,并没有考虑预留一部分资金、资源和人力用于模型的持续评估和重新训练。但作为典型的数据驱动项目,AI绝不是一次性投资。人们可能没有意识到,一旦模型被投入生产,他们就需要持续为模型的迭代和开发分配资金、资源和人力。
所以只考虑到模型构建成本的组织,会在项目启动之后遇到各种问题。以AI项目成本和投资回报为例,AI项目所有者需要关注模型的维护成本是多少,以及愿意为后续数据准备和模型迭代再投入多少资源。
而成功AI项目的一大共通之处,就在于其功能不会一次性交付。相反,成功的项目会将AI方案视为持续迭代的循环,并不存在明确的起点和终点。就如同网络安全项目不是一次性项目一样,AI这类数据驱动项目也需要持续运转,确保适应不断变化的现实、不断变化的数据。即使是最初效果极好的模型,也可能随着时间推移而逐渐失效,毕竟数据漂移和模型漂移不可避免。此外,随着组织自身的发展,对AI应用的专业知识和技巧、用例、模型及数据也会持续更新、不断变化。
再有,全球经济和世界格局也在以意想不到的方式震荡波动。于是乎,任何长期规划项目、包括极度复杂的AI项目,都免不了要随之做出调整。过去两年以来,零售商肯定预料不到供应链和劳动力市场出现的冲击,组织也想不到员工会快速转向居家办公。现实世界和用户行为的快速变化必然导致数据发生变化,所以模型也得随之变化。正因为如此,我们才需要对模型开展持续监控和迭代,充分考虑到数据漂移与模型漂移问题。
关于迭代的思考:方法论与ML Ops
当组织计划扩展或增强模型时,也同样需要匹配原有模型迭代机制。例如,如果一家北美企业希望将购买模式预测模型扩展到其他市场,就需要持续迭代模型和数据以适应新的数据需求。
这些因素意味着,组织必须不断为迭代提供额外资金,确保模型能够正确识别数据源及其他关键因素。而获得AI成功的组织也意识到,他们需要遵循经验验证的迭代和敏捷方法,借此顺利完成AI项目扩展。凭借敏捷方法论和以数据为中心的项目管理思路,跨行业数据挖掘流程标准(CRISP-DM)等已经开始增强AI功能,保证迭代项目不至于遗漏掉某些关键步骤。
随着AI市场的不断发展,名为“ML Ops”的新兴机器学习模型运营管理也开始受到追捧。ML Ops专注于模型的开发和使用、机器学习运营及部署的整个生命周期。ML Ops方法及解决方案旨在帮助组织在持续发展的空间当中管理并监控AI模型。ML Ops也可谓站在巨人的肩膀上,充分汲取了DevOps以开发为中心的项目持续迭代/开发思路,以及DataOps对于不断变化的大规模数据集的管理经验。
ML Ops的目标是为组织提供模型漂移、模型治理与版本控制等可见性指引,借此协助AI项目迭代。ML Ops能帮助大家更好地管理这些问题。虽然目前市面上充斥着各种ML Ops工具,但ML Ops与DevOps一样,主要强调的是组织自己做事,而非花钱购买就能无脑解决。Ml Ops最佳实践涵盖模型治理、版本控制、发现、监控、透明度以及模型安全/迭代等一系列环节。ML Ops解决方案还能同时支持同一模型的多个版本,根据特定需求对其进行行为定制。这类解决方案还会跟踪、监控和确定谁有权访问哪些模型,同时严格保障治理及安全管理等原则。
考虑到AI迭代的现实需求,ML Ops已经开始成为整体模型构建与管理环境中的重要组成部分。这些功能未来也有望越来越多地作为整体AI及ML工具集中的一分子,并逐步登陆云解决方案、开源产品及ML机器学习平台等应用场景。
失败是成功之母
ML Ops与AI项目的成功,离不开最佳实践的支持和引导。问题并不会导致AI项目失败,无法准确解决问题才是失败的根源。组织需要将AI项目视为一种迭代且循序渐进的过程,并充分通过AI认知项目管理(CPMAI)方法和不断发展的ML Ops工具探索出适合自己的最佳实践。从大处着眼,从小处着手,持续迭代的理念应当贯穿AI项目的整个生命周期。这些失败案例绝不是故事的终章,而应该成为新的开始。
好文章,需要你的鼓励
这篇研究重新审视了循环神经网络中的双线性状态转换机制,挑战了传统观点。高通AI研究团队证明,隐藏单元不仅是被动记忆存储,更是网络计算的积极参与者。研究建立了一个从实数对角线到完全双线性的模型层级,对应不同复杂度的状态跟踪任务。实验表明,双线性RNN能有效学习各种状态跟踪任务,甚至只需极少量训练数据。研究还发现,纯乘法交互比加法交互更有利于状态跟踪,为循环网络设计提供了新视角。
这项研究探讨了多模态大语言模型在增强推理能力时出现的视觉幻觉问题。研究发现,模型生成更长推理链时,对视觉信息的关注减少,导致幻觉增加。研究者提出RH-AUC指标和RH-Bench基准来评估模型在推理与幻觉间的平衡,发现较大模型表现更好,纯强化学习训练优于监督微调加强化学习,且训练数据的类型比数量更重要。这些发现对开发既具推理能力又保持视觉准确性的AI系统具有重要意义。
这篇研究探讨了大语言模型在自动推理任务中的不确定性问题。研究者提出,模型生成形式规范时的概率不确定性不是缺陷,而是宝贵的信号源。通过引入概率上下文无关文法框架分析SMT-LIB程序分布,他们发现不确定性信号具有任务相关性(如逻辑任务中的语法熵AUROC>0.93)。他们的轻量级信号融合方法能减少14-100%的错误,仅需最小弃权,将大语言模型驱动的形式化转变为可靠工程学科。研究揭示当模型正确理解逻辑关系时会产生稳定的语法模式,为判断何时信任模型提供了可靠指标。
来自沙特阿拉伯王子苏丹大学和阿尔法萨尔大学的研究团队开发了GATE(General Arabic Text Embedding)模型,这是一套专为阿拉伯语设计的文本嵌入系统。该研究结合了套娃表示学习和混合损失训练方法,解决了阿拉伯语特有的语义处理挑战。GATE模型在MTEB基准测试的语义文本相似度任务中表现卓越,比包括OpenAI在内的更大模型高出20-25%,同时保持了多维度(768至64)的高效表现。研究通过详细的错误分析揭示了模型在不同相似度水平上的表现特点,为阿拉伯语NLP领域提供了新的研究方向。