根据 IBM 日前提出的观点,在使用生成式人工智能预测某些结果时,注意力机制并不是所需要的全部,还需要时间。IBM 今年早些时候根据 Apache 许可在 Hugging Face 上发布了开源 TinyTimeMixer(TTM)模型。TTM 基于 IBM 的 Granite 基础模型,是一种轻量级预训练时间序列基础模型 (TSFM),可用于基于补丁混合器架构的时间序列预测,补丁混合器架构能够学习跨时间和多个变量的上下文和相关性。
TSFM 与 ChatGPT 及 Llama 等基于语言和视觉的基础模型不同,ChatGPT 及 Llama之类的模型里每个单词或令牌都包含语义,TSFM使用的则是通过与局部时间片段相关联的数值(也就是一组连续的时间点)学习时间模式。此外,语言/视觉基础模型需要在单一语境(例如具有语法结构或白话数据集共性的特定语言或主题)下进行训练才能很好地推导出关联,而 TSFM 可以通过查看长时间历史窗口以及与其他多变量时间序列数据的相关性推导出更多语境和关联。这些数据可能因为行业、时间分辨率、采样率、数值标度或其他与时间序列数据相关的典型特征不同而不同。
不同类型模型之间有一个共同点, 都需要大量数据才能正确地训练模型。语言和视觉基础模型基本上可以利用整个互联网。而 TSFM 则需要非常具体的时间戳数据,这一类数据通常是不公开的。据估计,这种类型的数据高达95%仍然是专有专有数据,不会公开。幸运的是,澳洲莫纳什大学和悉尼大学的研究人员建立了莫纳什时间序列预测资料库,资料库提供了跨越多个领域和时间单位的数据,足以正确地训练 TSFM 模型。
TSFM 模型能够处理时间序列数据的多变量性质,这对于需要考虑数据在训练窗口期间所代表的上下文至关重要,例如,在分析股票价格时,是否有财报电话会议或重要公告、其中数据是否有拐点等等。为了充分利用这一点,IBM 创建了一种名为 Time Series Mixer(时间序列混合器)或 TS Mixer 的新架构,新架构用的不是语言模型用的Transformer架构。据 IBM 称,与使用 Transformer 架构的模型相比,实施 TS Mixer 架构的模型规模缩小了 10 倍,同时仍保持类似的准确度水平。
TTM 模型自 2024 年 4 月发布以来在 Hugging Face 下载量已超过 100 多万次,那么大家可能想知道:开发人员在用IBM Granite TTM 卡发哪些时间序列应用呢?据 IBM 透露,TTM 应用包括各种增值、多变量用例场景等等。例如,可用于预测闪存设备的 350 多个关键性能指标。另一个用例则是利用时间模式和其他变量的影响提供股票走势的方向性预测。此外,TTM 还被用于提供 28 天线销售预测(与M5零售数据集进行对比展示),可以进行库存和收入规划,同时还可以考虑销售活动和影响零售销售的其他变量的影响,进一步提高预测的准确性。TTM 还可用于基于预测的优化(模型预测控制),例如楼宇温度控制或复杂的制造过程建模。
我们都知道,没有放之四海而皆准的人工智能解决方案。而新的人工智能技术和模型则在源源不断地冒出来,为一个特定的应用选择一个最佳解决方案至关重要。在基于语言和视觉预测结果方面,基于 Transformer 的大型语言模型显然能提供翻天覆地的结果。不过,在预测基于时间序列的结果方面,IBM发出的这款新工具则可以放进我们的工具箱中。IBM Granite TTM 并不是唯一的 TSFM,但希望 IBM 推出的创新技术及其开源可用性能够在开发和实用性方面帮助推动 TSFM 的应用,最后达到与基于语言的同类产品相同的规模。
好文章,需要你的鼓励
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。