鱼阅

Fish AI 速读

原文 3806 字,FishAI速读将为你节省 20 分钟

总结

Timer是清华大学软件学院机器学习实验室和大数据系统软件国家工程研究中心提出的一种面向时间序列的大模型。该模型采用仅编码器结构,基于多领域时间序列进行大规模预训练,通过微调突破了少样本场景下的性能瓶颈,适配不同输入输出长度的时间序列,以及预测,填补,异常检测等任务,展现出模型可扩展性。

关键要点

  • 🤔 数据构建:构建层次化数据集

    尽管时间序列在现实世界中无处不在,但大规模时间序列数据集的发展却滞后于语言、图像、视频等领域。为了解决这个问题,作者团队构建了包含10亿数据点的统一时间序列数据集(Unified Time Series Dataset, UTSD),覆盖七个领域的高质量时间序列,蕴含时间序列模态的通用“常识”。UTSD旨在训练模型获得跨领域时序建模的基本能力,例如捕捉主要周期,生成重要模式,以及关注自相关部分等。作者团队还对数据集进行了难度分级和配比,随着数据规模的扩大,变化规律复杂的数据比例也在不断增加,以便逐步进行模型的容量扩展和课程学习。

  • 🤖 训练方法:统一格式 + 自回归生成

    由于时序领域的数据存在异构性,例如变量数目,采样频率和时间跨度等,进行大规模时序预训练的首要难题在于如何统一异构的时间序列。为此,作者团队提出了一种单序列(Single Series Sequence, S3)格式,通过变量拆分,归一化合并,分窗和采样等流程,将时序数据转换成了与语言类似的固定长度的一维序列,在数值范围内保证分布稳定的同时,让模型更加关注序列本身的变化模式。在预训练方法上,文章将单序列切分为序列片段,每个片段作为一个“词”,采用与LLM类似的下一词预测(Next Token Prediction, NTP)进行预训练。推理时,模型可通过自回归生成任意长度的序列。

  • 🏗️ 模型结构:剑走偏锋的仅解码器结构

    不同于当下时序领域流行的仅编码器结构,Timer采用GPT风格的仅解码器Transformer。作者团队发现,Encoder-only结构接受了预测区间的所有监督信号,在端到端的训练场景中能取得较好效果,但在一定程度上限制Transformer作为时序大模型的潜力。另一方面,LLM广泛采用以词为单位的自回归式监督信号,每个“词”都是预测的目标,产生了细粒度且互相独立的监督信号。文章认为基于大规模时序数据,学习序列片段的独立语义,能够赋予模型在数据集之间泛化的能力。并且获得的模型和LLM一样,模型只限制了最大输入长度,从而能够适用于下游任务中各种长度的序列。