@Transformers in Time Series: A Survey
[[Abstract]]
[[Attachments]]
创新点 #card
背景
网络结构 #card
[[SENET]] Squeeze-and-Excitation network 特征加权方法
f*k 压缩成 f*1f*1f*k 相乘。[[Bilinear-Interaction Layer]] → 结合Inner Product和Hadamard Product方式,并引入额外参数矩阵W,学习特征交叉。
v_i * W * v_j 时,权重矩阵来源feature * embedding + emb*embfeature * embedding + feature*emb*embfeature * embedding + feature*feature*emb*embfeature * embeddingfeature * filed * embedding
[[ETA]] fm 交叉部分可以尝试引入 bi layer,使用 link 状态组合 W。
@Applying Deep Learning To Airbnb Search
[[Abstract]]
[[Attachments]]
记录 Airbnb 深度模型探索历程。
业务:顾客查询后返回一个有序的列表(Listing,对应房间)。
深度模型之前使用 GBDT 对房子进行打分。
Model Evolution

Failed Models
Score Decomposition 将 NN 的分数分解到特征上。[[GBDT]] 可以这样做。Ablation Test 每次训练一个模型删除一个特征。问题是模型可以从剩余的特征中弥补出缺失的特征。Permutation Test 选定一个特征,随机生成值。[[Random Forests]] 中常用的方法。新生成的样本可能和现实世界中的分布不同。一个特征可能和其他特征共同作用产生效果。TopBot Analysis 分析排序结果 top 和 bot 的单独特征分布
{:height 415, :width 716}奇怪的东西
@Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
[[Abstract]]
[[Attachments]]
分片线性方式对数据进行拟合,将空间分成多个区域,每个区域使用线性的方式进行拟合,最后的输出变为多个子区域预测值的加权平均。
相当于对多个区域做一个 [[Attention]]
结构与三层神经网络类似
Model
处理大规模稀疏非线性特征
LS-PLM 模型学习数据的非线性特征。
question 为什么 LR 模型不能区分下面的数据,如何区分数据?[[SVM]][[FM]]

$$p(y=1 | x)=g\left(\sum_{j=1}^{m} \sigma\left(u_{j}^{T} x\right) \eta\left(w_{j}^{T} x\right)\right)$$
u 和 w 都是 d 维向量
m 为划分 region 数量
一般化使用:
$$p(y=1 | x)=\sum_{i=1}^{m} \frac{\exp \left(u_{i}^{T} x\right)}{\sum_{j=1}^{m} \exp \left(u_{j}^{T} x\right)} \cdot \frac{1}{1+\exp \left(-w_{i}^{T} x\right)}$$
可以把上面的模型看成是三层神经网络

Regularization

@wait 后面如何求解这损失函数以及工程实现待看。
[[Ref]]