内容特征
该类特征有两种比较常见的处理方式,
-
一是直接离散化作为模型的输入,#card
- 如对于文本的词或字进行ID编码即可将其转化为离散特征,并进一步变换为模型可输入数据类型;
-
另一种方式则是先对内容进行隐语义表示,并将隐语义表示作为模型输入。#card
-
如对于文本,常见的隐语义表示可以通过word-embeding、经过微调的bert等Encoder进行语义向量特征提取;
-
对于图像亦可以使用常见的图像encoder模型微调后预测得到其向量表示。
-
该类特征有两种比较常见的处理方式,
一是直接离散化作为模型的输入,#card
另一种方式则是先对内容进行隐语义表示,并将隐语义表示作为模型输入。#card
如对于文本,常见的隐语义表示可以通过word-embeding、经过微调的bert等Encoder进行语义向量特征提取;
对于图像亦可以使用常见的图像encoder模型微调后预测得到其向量表示。