FLIP:Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction论文精读

关键词：细粒度对齐、预训练语言模型、CTR 预测、推荐系统

论文地址：https://arxiv.org/pdf/2310.19453

代码链接：https://github.com/justarter/FLIP

发表会议：RecSys 24

摘要

文章中提到传统基于ID嵌入模型和预训练语言模型Pretrained Language Models, PLMs）。传统基于ID的点击率模型以one-hot特征编码作为输入，通过特征交互建模获取协同信号；预训练语言模型通过hard prompt模版获得文本情态句子作为输入，利用PLMs提取语义知识，但plm在捕获领域协作信号和区分具有细微文本差异的特征方面面临挑战。文章利用这两种范式的优点，设计一种基于ID和预训练语言模型(FLIP)，该方法将以上两种方法融合，让未被mask的模态数据帮助重构被mask的模态的数据，同时，文章还提出通过自适应组合基于id的模型和PLM的输出，对两者进行联合微调。

引言

传统基于ID的CTR预测采用one-hot编码将输入数据转换为ID特征，这种方式丢失文本特征中包含的语义信息，无法捕获特征中语义的相关性，此外基于ID的模型依赖用户的交互。PLM擅长理解文本特征和上线文的含义，利用其知识推理能力在稀疏交互性下也具有稳定性能。但PLM也具有局限性，它难以理解领域协作信号，因为它们的输入数据表述为文本句子，。此外，PLM无法识别不同特征描述之间的细微差距(如就电影而言，“房间”和“房间”是两个相似的电影)

(三个跨模态预训练任务，a通过对比学习提供粗粒度的实例对齐，bc通过联合掩模态实现细粒度特征级对齐)

正文

FLIP概述

FLIP包含三个阶段：模态转换、模态对齐训练和自适应微调。首先，FLIP将原始数据从表格形式转换为文本形式。然后，在模态对齐预训练中，采用联合屏蔽语言/表格建模任务来学习细粒度的模态对齐。最后，提出了一种简单而有效的自适应微调策略，以进一步提高CTR预测的性能。

模态转化

标准plm采用单词序列作为输入[13,57]。模态转换的目的是通过硬提示模板将表格数据\(x^{tab}_{i}\)转换为文本数据\(x^{text}_{i}\)

其中\(m_{f}\)表示第\(f\)个字段的名称(例如：性别)，\(v_{i,f}\)表示输入的变量\(x^{tab}_{i}\)为𝑓-th字段的特征值。(例如：女)，⊕表示连接操作符。2给出了一个说明性示例。

模态对齐预训练

模态对齐训练包括mask数据生产、数据编码、mask语言模型建模、mask tabular模型建模（这里的tabular模型就是传统基于ID的协同模型）和实例级对比学习

如图2（阶段2）所示，在从相同的原始输入中获得成对的文本文本数据(\(x^{text}_{i}\)，\(x^{tab}_{i}\))后，我们首先执行字段级数据屏蔽以获得输入对的损坏版本，（\(\hat{x}^{text}_{i}\)，\(\hat{x}^{tab}_{i}\)）。然后，利用PLM - PLM和基于ID的模型- ID对输入对进行编码，得到密度表示(\(w_{i}\)，\(\hat{w}_{i}\))和(\(v_{i}\)，\(\hat{v}_{i}\))分别用于文本模式和表格模式。接下来，我们应用三个不同的预训练目标来实现plm和基于id的模型之间的特征级和实例级对齐：

字段级数据屏蔽

举例：假设来自职业字段的句子标记为[“occupation”，“is”，“college”，“student”]，段级屏蔽的结果应该是[" occupation ", " is ", [MASK], [MASK]]。但令牌级屏蔽的结果可能是[[MASK]，“is”，“college”，“student”]或[“occupation”，“is”，“college”，[MASK]]。

对于table数据，采用一定比例的\(r_{tab}\)字段，用一个额外的特征替换对应的特征，特性不是特定于字段的，而是由所有特性字段共享，屏蔽字段的索引集表示为\(I^{tab}\)。

字段级屏蔽之后，得到屏蔽样本(\(\hat{x}^{text}_{i}\)，\(\hat{x}^{tab}_{i}\))，文本模态数据的mask和table模态数据的mask比例用两个超参数控制。

数据编码

PLM模型（ \(h_{PLM}\) ）和ID-based模型（ \(h_{ID}\) ）分别对文本模态和table模态的数据进行编码。

\(l\)为令牌个数\(w^{text}_{i}\)和并且\(D_{text}\)为PLM的隐藏大小。\(w_{i，1}\)是表示整个文本输入的[CLS]令牌向量。

掩码数据建模(MLM)

将文本-表示对\((\hat{w}_{i},v_{i})\)作为输入，屏蔽令牌的索引集表示为\(I^{text}\),将mask的token对应的向量和table模态的输出 \(v_{i}\) concat起来过一个预测层，预测层是个两层的MLP。优化loss是交叉熵。

mask tabular模型建模

将文本-表对(\(w_i\)，\(\hat{v}_{i}\))作为输入，目标是利用文本模态的输出和mask的table数据重构mask掉的数据，首先：

其中\(Q ∈ R^{D_{tab}×D_{text}}\) 是可训练的注意力矩阵，并且\(\sqrt{D_{text}}\)是比例因子。

对于索引为\(f∈I^{tab}\)的每个屏蔽特征，使用MLP+softmax计算在特征空间上的分布，所有掩蔽特征都采用交叉熵损失。

论文中提到，上述loss需要在全部特征空间上计算softmax，效率比较低，所以采用了噪声对比估计NCE。

实例级对比学习（ICL）

MLM和MTM是从特征层面对两个模态进行对齐，ICL的是显式的从样本层面对齐两个模态。方法采用的是对比学习，模板是同一个样本的文本和table两个模态的表征尽可能接近，不同样本的两个模态表征尽可能远离。

使用[CLS]令牌向量\(w_{i，1}\)来表示文本输入\(x^{text}_{i}\)，为保持维度的一致性，使用\(w_{i,1}\)和表格表示\(v_{i}\)投影到𝑑-dimensional向量，即：\(z^{text}\)和\(z^{tab}_{i}\)，损失函数为：

其中B为批量大小，\(\mathscr{C}\)为温度超参数，相似函数sim（·）用点积表示，最后总损失表示为：

自适应微调

上述预训练之后，PLM和ID模型学到了细粒度多模态表征，这个阶段主要是在下游ctr任务上进行两个模态的联合微调，以获得更好的效果。

FLIP对ID模型（tabular模态）和PLM模型的输出分别一个随机初始化的线性层，以使两个模型输出各自的概率估计\(\hat{y}^{id}_{i}\)和\(\hat{y}^{PLM}_{i}\)FLIP模型最终的ctr预估概率是两个概率的加权和。

损失函数为：

实验

数据集：MovieLens-1M、BookCrossing、GoodReads

评价指标为：AUC （ROC曲线下面积）和Logloss

基线算法：1)基于ID的模型：AFM[79]、PNN[55]、Wide&Deep[9]、DCN[73]、DeepFM[20]、xDeepFM[36]、AFN[10]、AutoInt[65]和DCNv2[74]；(2)基于PLM的模型：CTRL - bert[50]、P5[18]和PTab[43]；(3)基于ID模型和PLM相结合的ID PLM模型：CTRL[35]、MoRec[81]。

实现细节：文本模态和table模态的mask比例均为15%，PLM模型使用TinyBERT，ID模型使用DCNv2。