FLIP:Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction论文精读

关键词:细粒度对齐、预训练语言模型、CTR 预测、推荐系统

论文地址:https://arxiv.org/pdf/2310.19453

代码链接:https://github.com/justarter/FLIP

发表会议:RecSys 24

摘要

​ 文章中提到传统基于ID嵌入模型预训练语言模型Pretrained Language Models, PLMs)。传统基于ID的点击率模型以one-hot特征编码作为输入,通过特征交互建模获取协同信号;预训练语言模型通过hard prompt模版获得文本情态句子作为输入,利用PLMs提取语义知识,但plm在捕获领域协作信号和区分具有细微文本差异的特征方面面临挑战。文章利用这两种范式的优点,设计一种基于ID和预训练语言模型(FLIP),该方法将以上两种方法融合,让未被mask的模态数据帮助重构被mask的模态的数据,同时,文章还提出通过自适应组合基于id的模型和PLM的输出,对两者进行联合微调。

引言

​ 传统基于ID的CTR预测采用one-hot编码将输入数据转换为ID特征,这种方式丢失文本特征中包含的语义信息,无法捕获特征中语义的相关性,此外基于ID的模型依赖用户的交互。PLM擅长理解文本特征和上线文的含义,利用其知识推理能力在稀疏交互性下也具有稳定性能。但PLM也具有局限性,它难以理解领域协作信号,因为它们的输入数据表述为文本句子,。此外,PLM无法识别不同特征描述之间的细微差距(如就电影而言,“房间”和“房间”是两个相似的电影)

​ (三个跨模态预训练任务,a通过对比学习提供粗粒度的实例对齐,bc通过联合掩模态实现细粒度特征级对齐)

正文

FLIP概述

​ FLIP包含三个阶段:模态转换、模态对齐训练和自适应微调。首先,FLIP将原始数据从表格形式转换为文本形式。然后,在模态对齐预训练中,采用联合屏蔽语言/表格建模任务来学习细粒度的模态对齐。最后,提出了一种简单而有效的自适应微调策略,以进一步提高CTR预测的性能。

模态转化

​ 标准plm采用单词序列作为输入[13,57]。模态转换的目的是通过硬提示模板将表格数据转换为文本数据

​ 其中表示第个字段的名称(例如:性别),表示输入的变量为𝑓-th字段的特征值。(例如:女),⊕表示连接操作符。2给出了一个说明性示例。

模态对齐预训练

​ 模态对齐训练包括mask数据生产、数据编码、mask语言模型建模、mask tabular模型建模(这里的tabular模型就是传统基于ID的协同模型)和实例级对比学习

​ 如图2(阶段2)所示,在从相同的原始输入中获得成对的文本文本数据()后,我们首先执行字段级数据屏蔽以获得输入对的损坏版本,()。然后,利用PLM - PLM和基于ID的模型- ID对输入对进行编码,得到密度表示()和()分别用于文本模式和表格模式。接下来,我们应用三个不同的预训练目标来实现plm和基于id的模型之间的特征级和实例级对齐:

字段级数据屏蔽

​ 举例:假设来自职业字段的句子标记为[“occupation”,“is”,“college”,“student”],段级屏蔽的结果应该是[" occupation ", " is ", [MASK], [MASK]]。但令牌级屏蔽的结果可能是[[MASK],“is”,“college”,“student”]或[“occupation”,“is”,“college”,[MASK]]。

​ 对于table数据,采用一定比例的字段,用一个额外的特征替换对应的特征,特性不是特定于字段的,而是由所有特性字段共享,屏蔽字段的索引集表示为

​ 字段级屏蔽之后,得到屏蔽样本(),文本模态数据的mask和table模态数据的mask比例用两个超参数控制。

数据编码

​ PLM模型( )和ID-based模型( )分别对文本模态和table模态的数据进行编码。

为令牌个数和并且为PLM的隐藏大小。是表示整个文本输入的[CLS]令牌向量。

掩码数据建模(MLM)

​ 将文本-表示对作为输入,屏蔽令牌的索引集表示为,将mask的token对应的向量和table模态的输出 concat起来过一个预测层,预测层是个两层的MLP。优化loss是交叉熵。

mask tabular模型建模

​ 将文本-表对()作为输入,目标是利用文本模态的输出和mask的table数据重构mask掉的数据,首先:

​ 其中 是可训练的注意力矩阵,并且是比例因子。

​ 对于索引为的每个屏蔽特征,使用MLP+softmax计算在特征空间上的分布,所有掩蔽特征都采用交叉熵损失。

​ 论文中提到,上述loss需要在全部特征空间上计算softmax,效率比较低,所以采用了噪声对比估计NCE。

实例级对比学习(ICL)

​ MLM和MTM是从特征层面对两个模态进行对齐,ICL的是显式的从样本层面对齐两个模态。方法采用的是对比学习,模板是同一个样本的文本和table两个模态的表征尽可能接近,不同样本的两个模态表征尽可能远离。

​ 使用[CLS]令牌向量来表示文本输入,为保持维度的一致性,使用和表格表示投影到𝑑-dimensional向量,即:,损失函数为:

​ 其中B为批量大小,为温度超参数,相似函数sim(·)用点积表示,最后总损失表示为:

自适应微调

​ 上述预训练之后,PLM和ID模型学到了细粒度多模态表征,这个阶段主要是在下游ctr任务上进行两个模态的联合微调,以获得更好的效果。

​ FLIP对ID模型(tabular模态)和PLM模型的输出分别一个随机初始化的线性层,以使两个模型输出各自的概率估计FLIP模型最终的ctr预估概率是两个概率的加权和。

​ 损失函数为:

实验

​ 数据集:MovieLens-1M、BookCrossing、GoodReads

​ 评价指标为:AUC (ROC曲线下面积)和Logloss

​ 基线算法:1)基于ID的模型:AFM[79]、PNN[55]、Wide&Deep[9]、DCN[73]、DeepFM[20]、xDeepFM[36]、AFN[10]、AutoInt[65]和DCNv2[74];(2)基于PLM的模型:CTRL - bert[50]、P5[18]和PTab[43];(3)基于ID模型和PLM相结合的ID PLM模型:CTRL[35]、MoRec[81]。

​ 实现细节:文本模态和table模态的mask比例均为15%,PLM模型使用TinyBERT,ID模型使用DCNv2。

​ 不同plm的兼容性。基于id的模型固定为DCNv2。

消融实验:

mask率和对比学习温度系数的实验:

​ 级的对齐。

​ 使用基于PLM和id的模型将它们编码成归一化样本表示计算每个跨模态表示对的相互相似性分数(通过点积测量),并将热图可视化.

不同模型变体在MovieLens-1M上学习的特征ID嵌入的可视化。使用奇异值分解将特征嵌入矩阵投影到二维数据中:


FLIP:Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction论文精读
http://example.com/2025/03/01/论文精读FLIP/
作者
yzcabe
发布于
2025年3月1日
许可协议