((6430176a-f191-46f2-81a6-4c66716b2012))
((64301e4e-058b-48ad-9b4f-fca33d33ece1)) 在 TFD 前用 [[Seq2Seq]] 对数据进行一次增强 #card
- 重要的点通常是与周围的值相关系来确定的,例如异常值、变化点或周期模式 ((64301e96-44da-4b35-9af9-5de1a4da8315))
- 注意力机制架构中构建利用 point-wise values 的特征可以实现性能提升
- [[@Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting]] ((6430200f-c4ae-4707-93e0-320d05d3413e))
- LSTM encoder-decoder
- encoder 输入 ξ~t−k:t 前 k 步特征
- decoder 输入 ξ~t+1:t+τmax 未来 tao 步特征
- 由 encoder 和 decoder 生成的时序特征可表示为 ϕ(t,n)∈{ϕ(t,−k),…,ϕ(t,τmax)}
- 时序特征输入到 TFD 前的在经过一次非线性变换
- ϕ~(t,n)=LayerNorm(ξ~t+n+GLUϕ~(ϕ(t,n)))
((64301e1d-88db-4617-a97a-92ebeafd54f6)) 用静态变量增强时序特征
#card
- 静态协变量通常对时间动态有重要影响 ((643020c2-892c-499d-8e24-e40605f0b867))
- θ(t,n)=GRNθ(ϕ~(t,n),ce)
- ((6430212c-e967-4477-8c1a-f92bf17ba06c))
自关注模块 ((64301e11-52ec-4e84-b5af-4f6fde452384)) 学习时序数据的长期依赖关系并提供模型可解释性
#card
- [[Interpretable Multi-Head Attention]],每个 head 使用相同的 QW,然后用多头 attention score 加权平均后的 V 做解释
- B(t)= InterpretableMultiHead (Θ(t),Θ(t),Θ(t))
- δ(t,n)=LayerNorm(θ(t,n)+GLUδ(β(t,n))).
((64301e07-2b18-4b81-a4a7-eebc9acebaf6)) 对自关注层的输出应用额外的非线性处理公式 #card
- ψ(t,n)=GRNψ(δ(t,n))
- ψ~(t,n)=LayerNorm(ϕ~(t,n)+GLUψ~(ψ(t,n)))