IBM 改进生成式AI预测:利用时间模式而不仅是注意力机制

IBM认为,在使用生成式人工智能预测某些结果时,注意力机制并不是所需要的全部,还需要时间序列预测。

根据 IBM 日前提出的观点,在使用生成式人工智能预测某些结果时,注意力机制并不是所需要的全部,还需要时间。IBM 今年早些时候根据 Apache 许可在 Hugging Face 上发布了开源 TinyTimeMixer(TTM)模型。TTM 基于 IBM 的 Granite 基础模型,是一种轻量级预训练时间序列基础模型 (TSFM),可用于基于补丁混合器架构的时间序列预测,补丁混合器架构能够学习跨时间和多个变量的上下文和相关性。

TSFM 与 ChatGPT 及 Llama 等基于语言和视觉的基础模型不同,ChatGPT 及 Llama之类的模型里每个单词或令牌都包含语义,TSFM使用的则是通过与局部时间片段相关联的数值(也就是一组连续的时间点)学习时间模式。此外,语言/视觉基础模型需要在单一语境(例如具有语法结构或白话数据集共性的特定语言或主题)下进行训练才能很好地推导出关联,而 TSFM 可以通过查看长时间历史窗口以及与其他多变量时间序列数据的相关性推导出更多语境和关联。这些数据可能因为行业、时间分辨率、采样率、数值标度或其他与时间序列数据相关的典型特征不同而不同。

不同类型模型之间有一个共同点, 都需要大量数据才能正确地训练模型。语言和视觉基础模型基本上可以利用整个互联网。而 TSFM 则需要非常具体的时间戳数据,这一类数据通常是不公开的。据估计,这种类型的数据高达95%仍然是专有专有数据,不会公开。幸运的是,澳洲莫纳什大学和悉尼大学的研究人员建立了莫纳什时间序列预测资料库,资料库提供了跨越多个领域和时间单位的数据,足以正确地训练 TSFM 模型。

TSFM 模型能够处理时间序列数据的多变量性质,这对于需要考虑数据在训练窗口期间所代表的上下文至关重要,例如,在分析股票价格时,是否有财报电话会议或重要公告、其中数据是否有拐点等等。为了充分利用这一点,IBM 创建了一种名为 Time Series Mixer(时间序列混合器)或 TS Mixer 的新架构,新架构用的不是语言模型用的Transformer架构。据 IBM 称,与使用 Transformer 架构的模型相比,实施 TS Mixer 架构的模型规模缩小了 10 倍,同时仍保持类似的准确度水平。

TTM 模型自 2024 年 4 月发布以来在 Hugging Face 下载量已超过 100 多万次,那么大家可能想知道:开发人员在用IBM Granite TTM 卡发哪些时间序列应用呢?据 IBM 透露,TTM 应用包括各种增值、多变量用例场景等等。例如,可用于预测闪存设备的 350 多个关键性能指标。另一个用例则是利用时间模式和其他变量的影响提供股票走势的方向性预测。此外,TTM 还被用于提供 28 天线销售预测(与M5零售数据集进行对比展示),可以进行库存和收入规划,同时还可以考虑销售活动和影响零售销售的其他变量的影响,进一步提高预测的准确性。TTM 还可用于基于预测的优化(模型预测控制),例如楼宇温度控制或复杂的制造过程建模。

我们都知道,没有放之四海而皆准的人工智能解决方案。而新的人工智能技术和模型则在源源不断地冒出来,为一个特定的应用选择一个最佳解决方案至关重要。在基于语言和视觉预测结果方面,基于 Transformer 的大型语言模型显然能提供翻天覆地的结果。不过,在预测基于时间序列的结果方面,IBM发出的这款新工具则可以放进我们的工具箱中。IBM Granite TTM 并不是唯一的 TSFM,但希望 IBM 推出的创新技术及其开源可用性能够在开发和实用性方面帮助推动 TSFM 的应用,最后达到与基于语言的同类产品相同的规模。

来源:至顶网软件与服务频道

0赞

好文章,需要你的鼓励

2024

09/02

10:42

分享

点赞

邮件订阅