FLIP:Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction论文精读
关键词:细粒度对齐、预训练语言模型、CTR 预测、推荐系统
论文地址:https://arxiv.org/pdf/2310.19453
代码链接:https://github.com/justarter/FLIP
发表会议:RecSys 24
摘要
文章中提到传统基于ID嵌入模型和预训练语言模型Pretrained Language Models, PLMs)。传统基于ID的点击率模型以one-hot特征编码作为输入,通过特征交互建模获取协同信号;预训练语言模型通过hard prompt模版获得文本情态句子作为输入,利用PLMs提取语义知识,但plm在捕获领域协作信号和区分具有细微文本差异的特征方面面临挑战。文章利用这两种范式的优点,设计一种基于ID和预训练语言模型(FLIP),该方法将以上两种方法融合,让未被mask的模态数据帮助重构被mask的模态的数据,同时,文章还提出通过自适应组合基于id的模型和PLM的输出,对两者进行联合微调。
引言
传统基于ID的CTR预测采用one-hot编码将输入数据转换为ID特征,这种方式丢失文本特征中包含的语义信息,无法捕获特征中语义的相关性,此外基于ID的模型依赖用户的交互。PLM擅长理解文本特征和上线文的含义,利用其知识推理能力在稀疏交互性下也具有稳定性能。但PLM也具有局限性,它难以理解领域协作信号,因为它们的输入数据表述为文本句子,。此外,PLM无法识别不同特征描述之间的细微差距(如就电影而言,“房间”和“房间”是两个相似的电影)

(三个跨模态预训练任务,a通过对比学习提供粗粒度的实例对齐,bc通过联合掩模态实现细粒度特征级对齐)
正文
FLIP概述
FLIP包含三个阶段:模态转换、模态对齐训练和自适应微调。首先,FLIP将原始数据从表格形式转换为文本形式。然后,在模态对齐预训练中,采用联合屏蔽语言/表格建模任务来学习细粒度的模态对齐。最后,提出了一种简单而有效的自适应微调策略,以进一步提高CTR预测的性能。

模态转化
标准plm采用单词序列作为输入[13,57]。模态转换的目的是通过硬提示模板将表格数据

其中
模态对齐预训练
模态对齐训练包括mask数据生产、数据编码、mask语言模型建模、mask tabular模型建模(这里的tabular模型就是传统基于ID的协同模型)和实例级对比学习
如图2(阶段2)所示,在从相同的原始输入中获得成对的文本文本数据(

字段级数据屏蔽
举例:假设来自职业字段的句子标记为[“occupation”,“is”,“college”,“student”],段级屏蔽的结果应该是[" occupation ", " is ", [MASK], [MASK]]。但令牌级屏蔽的结果可能是[[MASK],“is”,“college”,“student”]或[“occupation”,“is”,“college”,[MASK]]。
对于table数据,采用一定比例的
字段级屏蔽之后,得到屏蔽样本(
数据编码
PLM模型(

掩码数据建模(MLM)
将文本-表示对



mask tabular模型建模
将文本-表对(

其中
对于索引为


论文中提到,上述loss需要在全部特征空间上计算softmax,效率比较低,所以采用了噪声对比估计NCE。

实例级对比学习(ICL)
MLM和MTM是从特征层面对两个模态进行对齐,ICL的是显式的从样本层面对齐两个模态。方法采用的是对比学习,模板是同一个样本的文本和table两个模态的表征尽可能接近,不同样本的两个模态表征尽可能远离。
使用[CLS]令牌向量

其中B为批量大小,

自适应微调
上述预训练之后,PLM和ID模型学到了细粒度多模态表征,这个阶段主要是在下游ctr任务上进行两个模态的联合微调,以获得更好的效果。
FLIP对ID模型(tabular模态)和PLM模型的输出分别一个随机初始化的线性层,以使两个模型输出各自的概率估计



损失函数为:

实验
数据集:MovieLens-1M、BookCrossing、GoodReads

评价指标为:AUC (ROC曲线下面积)和Logloss
基线算法:1)基于ID的模型:AFM[79]、PNN[55]、Wide&Deep[9]、DCN[73]、DeepFM[20]、xDeepFM[36]、AFN[10]、AutoInt[65]和DCNv2[74];(2)基于PLM的模型:CTRL - bert[50]、P5[18]和PTab[43];(3)基于ID模型和PLM相结合的ID PLM模型:CTRL[35]、MoRec[81]。
实现细节:文本模态和table模态的mask比例均为15%,PLM模型使用TinyBERT,ID模型使用DCNv2。

不同plm的兼容性。基于id的模型固定为DCNv2。

消融实验:

mask率和对比学习温度系数的实验:


级的对齐。
使用基于PLM和id的模型将它们编码成归一化样本表示

不同模型变体在MovieLens-1M上学习的特征ID嵌入的可视化。使用奇异值分解将特征嵌入矩阵投影到二维数据中:
