卷积点击预测模型外文翻译资料
2021-12-15 22:25:35
英语原文共 4 页
卷积点击预测模型
Qiang Liu, Feng Yulowast; , Shu Wu, Liang Wang
中国科学院自动化模式识别研究所智能感知与计算研究中心
{qiang.liu,feng.yu,shu.wu,wangliang} @nlpr.ia.ac.cn
摘要
网络广告的爆发式增长促进了对广告的点击预测的更好地预计。对于单个广告展示的点击预测,我们可以访问展示中元素之间的成对相关性,但不能访问元素关键要素之间的全局互动。此外,关于顺序点击预测的现有方法导致不同时间间隔不可改变的传播。在这项工作中,我们提出了一种新的模型,基于卷积神经网络的卷积点击预测模型(CCPM)。CCPM可以从具有不同元素的输入实例中提取本地全局关键特征,这不仅可以实现单个广告展示,还可以实现顺序广告展示。两个公共大型数据集的实验结果表明CCPM对点击预测有效。
分类和主题描述
H.3 [信息存储和检索]:信息过滤
关键词
单击预测,卷积神经网络
1.引言
最近,在线广告已经成为为广告商进行品牌推广和产品营销的最流行的方法,并且为商业网络发布者贡献了绝大多数的收入。
如今,单一广告印象[10]的点击预测已经受到很多关注,并且已经提出了许多不同的方法。为了简单和有效,Logistic回归(LR)[7,9]已被广泛用于点击预测。通过值表示单个广告印象的每个元素(例如,查询,广告,用户和其他上下文),LR不足以描述元素的潜在特征或揭示这些元素之间的复杂关系。作为推荐系统中广泛使用的技术,协同过滤方法中的矩阵分解(MF)方法[4]也用于点击预测。 MF方法分解和重建依赖矩阵以学习页面和广告的潜在语义表示。后来,分解机器(FM)[5,6],即多元素空间中MF的扩展,获得每个成对元素的潜在语义信息,能够更好地模拟各种元素的关系。然而,MF和FM模型捕获单个广告印象中成对元素的相关性,并忽略了这些元素之间的高阶交互。
与将单个广告印象作为输入实例并忽略历史印象的依赖性的传统作品不同,回归神经网络(RNN)模型[10]被用于连续广告印象的点击预测。充分利用历史点击序列,循环结构进一步提高了点击预测的准确性。该模型将每个用户的浏览历史记录作为序列,并获得不同印象的内部顺序依赖性。某个用户的历史点击序列被不同的时间间隔划分,一个时间间隔的序列信号可以通过循环连接矩阵传播到下一个间隔。由于训练的RNN模型的循环连接矩阵是常数,因此每两个连续时间间隔之间的序列信号的传播保持完全相同。但是,在实际场景中,由于用户对广告的态度会随着时间的推移而发生变化,因此RNN模型可能会因为使用不可更改的传播而对这些场景产生限制。
为了挖掘复杂动态场景中的重要语义特征,深度神经网络是一个不错的选择。如上所述,对于单个广告印象的点击预测,MF和FM方法仅揭示成对元素之间的相关性,但卷积神经网络(CNN)可以将单个广告印象中的各种元素作为一个整体处理,并获得它们之间的复杂交互。另一方面,RNN模型在连续广告印象上的不可变传播在有效建模动态点击预测方面具有局限性,而深度CNN架构的汇聚和卷积层可以从连续广告印象中完全提取局部全局关键特征。此外,最近一些关于CNN架构的研究成功地模拟了各种领域的重要语义特征。CNN语音识别方法[1],图像识别[3],信息检索[8]在各个领域都取得了很大的进步。此外,动态卷积神经网络(DCNN)[2]被证明是自然语言处理中的有效句型,它可以分析语义内容并提取句子的关键特征。
我们提出了一种卷积点击预测模型(CCPM),用于在单个广告展示和连续广告展示的风景中进行点击预测。 CCPM的输入实例由广告展示的元素或与顺序广告展示相关的元素组成。卷积层提取输入实例的局部全局特征,动态池层可以获得重要的特征。 CCPM调查广告印象的重要语义特征和印象历史的顺序相关性,以提高点击预测的准确性。进行实验以验证CCPM模型在对不同类型的输入实例进行建模方面的有效性,并揭示CCPM与LR,FM和RNN等最先进模型相比,在点击预测的准确性方面取得了很大的进步。据我们所知,CCPM是第一种尝试利用CNN来提高点击预测准确性的方法。
2. CCPM
在单个广告展示的情况下,有一些明显的元素,如用户,查询,广告,展示时间,网站类别,设备类型等。另一方面,有时系统可以收集每个用户的连续广告印象,其中用户的 广告上的行为高度依赖于用户的行为方式以及过去的时间。此连续广告展示由一系列单个广告展示组成。 这项工作的目标是根据这两种印象预测点击概率。
我们使用卷积体系结构对输入实例进行建模,该体系结构将宽卷积层与灵活的p-max池化层交替。 CCPM的整个过程如图1所示。在网络中,中间特征映射的宽度随输入实例的长度而变化。值得注意的是,所提出的模型可以处理具有不同长度的输入实例,这使得它可以被广泛使用。
2.1卷积层
给定具有n个元素的输入实例,为了获得CCPM的第一层,我们对实例中的每个元素进行嵌入,并将实例矩阵构造为
。 (1)
嵌入中的值是在训练过程中估计的,这有助于输入实例的更合适的表示。 通过将权重矩阵与下面的层中的激活矩阵以一维行方式卷积来获得网络中的卷积层。例如,通过在输入实例矩阵s上应用卷积来获得第二层。维度d和过滤器宽度omega;是输入实例的超参数。得到的矩阵r具有尺寸dtimes;(n omega;-1)。 给定 , 和作为相应矩阵的第i行,我们可以得到一维卷积
, (2)
其中索引j的范围从1到n omega;-1。超出范围的值(其中k lt;1或kgt; n)被设置为零。过滤器w中的优化权重检测特征并识别输入实例中的特定邻域范围。在二维激活矩阵上应用一维行方式卷积,与简单地使用二维卷积相比具有以下优点。通常我们在图像识别中应用二维卷积,因为检测器需要识别特殊的二维特征,例如物镜的边缘。但是,在点击预测模型中,嵌入的每个维度表示实例中元素的不同方面。因此,所得到的矩阵r的每一行从激活矩阵获得不同的特征。
2.2灵活的p-Max池
在这里,我们描述了灵活的p-max池层。 给定矢量,p-max汇集选择子矢量,其包含原始矢量中的p个最大值。 由于输入实例具有不同的长度,中间卷积层的矢量长度相应地改变,因此下面的合并层需要足够灵活以平滑地选择突出特征。考虑到上面提到的所有事实,我们让p是输入实例的长度和网络的深度的函数。尽管有许多可能的功能,我们选择以下功能
, (3)
其中l是网络的卷积层的总数,n是输入实例的长度,pi表示第i个汇集层的参数。 例如,给定长度为n = 18的输入实例,在三个卷积层的网络中,其汇集参数如下:p1 = 16,p2 = 6,p3 = 3。
该选定功能具有许多优点。首先,最后一个池化层具有固定参数,因此尽管不同输入实例的长度不同,但保证输出的完全连接层的矩阵具有统一的维度。 其次,与线性函数相比,幂指数函数最初变化缓慢,避免了在开始时丢失太多重要特征。
灵活的p-max池层不仅可以选择最关键的p特征,还可以保留这些特征的相对顺序,这在顺序点击预测中起着关键作用。
2.3特征映射
我们对池化层的输出应用非线性函数。 非线性函数也称为激活函数,它获取阈值的激活:
。 (4)
到目前为止,卷积层,灵活的p-max池化层和非线性函数已应用于输入实例。通过这种方式,我们可以获得一阶特征图。此外,可以一次又一次地重复上述三个操作以产生多个订单特征图和更深层的架构。我们用表示第i个特征地图。在某一层,可以并行计算许多特征图。 例如,表示那些第i阶特征映射的第j个特征映射,a是通过对不同权重矩阵和较低阶i-1的每个特征图的卷积结果求和来计算的,
(5)
其中mi表示对应的第i个顺序层中的特征映射的数量,并且*指的是在第2节中描述的一维行式卷积2.1。类似地,灵活的p-max合并和非线性函数可以连续地应用于特征映射。最后,存在完全连接的层,并且通过softmax进行预测。
3.实验
3.1数据集和基线
为了通过单个和连续的印象数据凭经验评估我们的方法对点击预测的性能,我们在两个公共真实世界数据集上进行实验:Avazu1和Yoochoose2。 Avazu数据集包括按时间顺序排列的几天广告点击数据。在每个点击数据中,有17个数据字段,例如广告ID,网站ID,点击等。上述数据字段表示单个广告展示的元素。我们使用此数据集来评估单个广告展示的点击预测效果。Yoochoose数据集在2014年的几个月内收集,包含来自在线零售商的许多浏览和购买事件会话,其中每个会话都封装了单个用户的点击事件。某些会话包含购买事件,这意味着会话以用户购买内容结束。在这里,我们将产品视为广告,然后可以将浏览行为视为单个广告展示,将购买行为视为带有点击的展示。此数据集用于评估顺序广告 示次数预测的效果。
三种最先进的方法用于经验比较,即LR [7],FM [6]和RNN [10]。(1)作为一种广泛使用的工业点击预测算法,LR易于理解,快速训练,并且足够高效,可以被搜索引擎作为其广告系统的一个组成部分来实现。(2)FM是一种通用回归模型,通过使用因子捕获元素对之间的相互作用。事实证明,FM在不同的任务和领域中非常有用。特别是,它可以有效地用于模拟与广告展示的各种元素的互动。(3)RNN将对用户顺序行为的依赖性建模到点击预测过程中,这不仅取决于当前输入特征,还取决于顺序历史信息。由于Avazu不包含连续广告印象,我们只在Yoochoose上实施RNN模型。在所有实验中,我们随机选择90%的数据集作为训练数据,其余10%作为测试数据。对于CCPM,我们在这项工作中应用了三层的CNN架构。对于Avazu数据集,CCPM的参数设置为d = 11,m = [4,4,2],w = [6,5,3],d = 8,m = [3,4,2],对于Yoochoose,w = [6,5,3](m,w是三层中的特征图和滤波器宽度的数量)。
现实场景中,点击概率非常低,类似于[7],我们采用logloss作为评估度量来衡量CTR预测的准确性。
(6)
其中pi = P(yi = 1 | s)表示预测的点击概率。 并且给了广告印象。yi是相应的观察标签,yi = 1表示用户点击了广告展示。 m是输入实例的总数。
3.2结果与分析
图2的左侧部分说明了CCPM和其他竞争性比较方法在单个广告展示和顺序广告展示中的点击预测效果。我们确定在两个数据集上,CCPM都优于传统方法。由于FM可以描述元素的潜在特征并揭示成对元素的关系,因此它在两个数据集上实现了对LR的显着改进。在连续广告展示中,RNN利用不同展示次数的顺序依赖性,并进一步提高点击预测的有效性。由于CCPM通过使用卷积层获取输入实例的基础语义信息并提取局部全局特征,并使用k-max池来选择关键特征,因此它不仅可以揭示单个广告印象的各个元素之间的高阶交互,还可以捕获连续广告展示中的历史传播模式。
此外,在图2的右侧部分,我们说明了CCPM在两个具有潜在向量的不同维数d的数据集上的对数损失值。在Avazu数据集上,CCPM的性能在d = 11时达到最佳结果,而在Yoochoose时CCPM在维数d = 6时产生最佳性能。这可能是因为Yoochoose数据集比Avazu,潜在向量更稀疏,小维度可以很好地估计。CCPM在两个数据集上获得最佳结果后,由于过度拟合,性能随着d的增加而逐渐降低。
最后,在两个数据集上,研究了滤波器宽度w的参数影响和相应层中的特征映射m的数量。如图3所示,在较深的卷积层中设置较小的相应滤波器宽度将有助于提高点击预测的准确性。卷积层的滤波器w可以学习识别尺寸小于或等于滤波器宽度w的特定邻域。因此,如实验结果所反映的,第一层中的w1通常设置得足够大以掌握所有可能的邻域。考虑到池化层将丢弃一些不太重要的项目,下面的卷积层的输入长度可以减少。结果,输入实例的关键特征进一步在更深层提取,内核大小变小。为了丰富来自不同角度的输入实例的表示,在一个层中存在许多并行特征映射。同样,我们还可以在较深层中设置较少数量的要素图,以获得更好的点击预测结果。随着层越来越深,关键特征已被提取并消除了噪声,更深层只需要少量特征映射来提取关键特征。
4.结论
在本文中,我们提出了一种基于CNN的卷积点击预测模型,用于单个和连续的广告印象。对两个公共数据集的广泛实验证明了所提出模型的有效性。
5.致谢
这项工作由中国国家基础研究计划(2012CB316300)和国家自然科学基金(61403390,U1435221,61175003,61420106015)共同支持。
6.参考文献
[1] O. Abdel-Hamid, A.-r. Mohamed, H. Jiang, and G. Penn. Applying convolutional neural networks concepts to hybrid nn-hmm model for speech recognition. In ICASSP, 2012.
[2] N. Kalchbrenner, E. Grefenstette, and P. Blunsom. A convolutional neural network for modelling sentences. In ACL, 2014.
[3] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet
资料编号:[5041]