版权信息
省级大型综合性科技类期刊
主管部门:自治区科技厅
主办单位:自治区科学技术信息研究院 
协办单位:自治区科学技术情报学会
编辑出版:科技期刊编译室
刊社地址:内蒙古呼和浩特新城西街149号本刊杂志社
邮政编码:100010
电      话:0471-2536371

E-mail  :

nmgkjzz@vip.163.com 

网站地址:www.nmgkjzz.com


往期杂志
当前位置: 首页>往期杂志>详细介绍

一种基于用户-兴趣-行为模型的互联网个性化广告投放方法

时间:2016-07-04来源: 作者: 点击: 484次




 

 

[提  ] 随着互联网与移动互联网的快速发展,利用网络进行广告投放已成为各大广告商的主要渠道,然而网络广告的准确投放一直是困扰广告主和广告商的一大难题。本文基于搜索引擎的用户行为数据,通过分析用户搜索词及广告的非结构化特征,设计了一种基于用户-兴趣-行为模型的个性化广告投放方法,该方法采用主题模型提取用户兴趣偏好,并基于最近邻居和用户行为得到广告推荐列表,为网络用户推荐个性化的广告。实验结果表明该方法可以实现个性化广告的推荐且效果优于基于内容的推荐方法。

[关键词] 互联网;个性化广告;LDA;用户-兴趣-行为模型;最近邻居


 

一、   前言

 

随着互联网与移动互联网的快速发展,2016年中国网民的渗透率已超过50%,并继续保持增长态势[1]。互联网传播范围广、传播速度快、信息数据庞大等特点,对于广告主和广告商来说无疑具有强大的吸引力。互联网广告作为一种投放在互联网媒体上的广告,其借助互联网传播范围广、传播速度快等特点极大增加了广告的受众人群和广告传播的便捷性与及时性,具有重大的营销价值。

但是,网络广告的准确投放一直是困扰广告主和广告商的一大难题。如何在互联网环境下利用大数据技术挖掘用户的潜在兴趣,以最有效、最省钱的方式把正确的广告投放给需要的人群,实现网络广告的个性化投放,已成为当前广告商的强烈需求。目前,对于互联网个性化广告投放,学者在广告推荐算法方面主要采用了基于内容的推荐(content-based)、关联规则推荐(association rule-based)[2]和协同过滤推荐(collaborative filtering),基于关联规则的广告推荐考虑用户点击某个广告的同时还会点击哪些其他的广告,主要依赖于大部分用户的共同行为,个性化程度相对较低;基于内容的推荐需要提取用户的特征信息,将其偏好与广告库中的广告进行匹配。如李娜等人采用贝叶斯分类方法和神经网络方法对用户进行行为定向[3],而张国燕等人则采用了K-means聚类方法。此外,Heung-Nam Kima等人通过标签的方式建立用户、标签和项目三个维度,并提出潜在偏好模型和潜在标签标注模型[4]来产生推荐,提高了推荐的准确度。基于内容的推荐方法在文本广告推荐中应用较多,但对图片、视频等广告的推荐无能为力;视频、音频类广告由于其非结构化信息难以提取,大都采用协同过滤的方法进行投放。但是由于协同过滤推荐需要用户对项目资源的评分数据,在广告行业中并没有被普遍应用。

概率主题模型通过集中所有用户可以将每个用户的兴趣以概率分布的形式给出,进而实现从大量用户的网络行为数据中挖掘出用户的兴趣偏好,近年来在用户兴趣识别领域受到了广泛重视[5]。主题模型(topic model)是一种使用概率的产生式模型来挖掘文本主题的新方法,topic model中假设,主题可以根据一定的规则生成单词,那么在已经知道文本单词的情况下,可以通过概率方法反推出文本集的主题分布情况[6],最具代表性的topic model是基于先验概率生成的LDA(Latent Dirichlet Allocation)模型[7],并已扩展和应用到许多领域[8-12]。例如,Rosen-Zvi等人从作者的角度考虑文档主题的生成,将LDA扩展为AT(Author-Topic)模型[8],模型中文档的生成过程是:随机选择一个作者,根据这个作者的主题概率分布,生成一个词,重复该过程直到生成整个文档。此外,一些工作成功地将LDA应用于推荐算法中,如Wang等人将传统的协同过滤算法和概率主题模型相结合进行学术论文推荐[9]。Liu等人通过分析旅游套餐数据的特性,提出一种TRAST(Tourist-Relation-Area-Season)模型[10]对旅游者兴趣建模并以此提升协同过滤推荐的效果。

为了应对现有基于内容推荐方法无法处理图片、视频等非结构化数据的问题。本文尝试利用LDA主题模型对网络用户进行兴趣建模并进行个性化广告推荐。首先,从大量用户的网络行为数据中挖掘用户兴趣偏好;一方面,根据用户的兴趣偏好,得到目标用户的最近邻居,进而得到基于最近邻居的广告推荐列表;另一方面,根据用户的当前搜索行为,结合用户兴趣偏好,得到基于用户搜索行为的广告推荐列表,最后,结合基于最近邻居的推荐列表和基于搜索行为的推荐列表,去除目标用户已浏览的广告,得到最终的广告推荐列表。在真实数据集上的实验结果表明该方法优于现有的基于内容推荐方法,且通过将广告定位到多个用户兴趣,实现了广告的多样化推荐。

本文余下部分组织如下:首先详细介绍了基于LDA的用户-兴趣-行为模型,然后基于用户-兴趣-行为模型,提出了基于最近邻居和用户行为的个性化广告推荐方法。最后,报告了在腾讯搜索引擎用户行为数据集上的实验结果。

二、   基于LDA的用户-兴趣-行为模型

本文假设用户的网络行为数据对应LDA主题模型的文档,其中包括用户在搜索引擎上搜索的关键词和曾经点击过的广告,而每一个关键词或广告对应LDA主题模型中的一个token,则可以通过计算token的主题分布得到用户的兴趣偏好。基于以上假设,提出了一种基于LDA主题模型的用户-兴趣-行为模型。其中,用户在搜索某个关键词或点击某个广告之前,需要先选择一个兴趣,然后根据这个兴趣确定其想要搜索的关键词或是否点击广告。

2.1用户-兴趣-行为模型

图2.1展示了用户-兴趣-行为模型的分层贝叶斯图,图中U表示全部用户集合,I表示全部兴趣集合,θ和φ分别存储每个用户的兴趣分布和每个兴趣的行为分布,而α和β是他们的超参数。由于分布(如θ和φ)是未知的,需要对用户-兴趣-行为模型进行推导。θ和φ的推导过程是根据观察到的用户行为反向“生成”模型的隐式因子(兴趣),它的基本思想是通过对观察到的用户行为数据进行主题赋值,从而得到用户行为token属于某个兴趣i的最大后验概率:

 

       

( 1 )

模型推导

    本文选择基于马尔科夫链MCMC的Gibbs采样方法对模型进行估计。它易于实现而且非常有效。在Gibbs采样过程中,用户行为集合中的每一个行为都由对应的用户兴趣分布和兴趣行为分布来决定。最后,给定训练集(用户行为数据),θ和φ里的元素可以按以下公式得到:

 

( 2 )

 

( 3 )

这里|I|是兴趣数量,|V|是用户行为向量的长度,表示token j在用户u的行为集合里出现并属于兴趣i的次数,表示token j在整个用户行为集合中出现并属于兴趣i的次数。Gibbs采样过后,每个用户的兴趣可以被表示成一个|I|维的向量(|I|是主题的数目,通常位于区间[20-100])[10]。通过计算兴趣分布的相似度[8],就可以发现用户和用户之间的关系,除此之外,用户-兴趣-行为模型还可以学习出潜在兴趣以及发现每个兴趣对应的行为token。

三、   基于用户-兴趣-行为模型的个性化广告投放方法

    本文根据用户-兴趣-行为模型提出了一种基于最近邻居和用户行为的广告推荐方法。一方面,根据用户兴趣偏好,得到目标用户的最近邻居,进而得到基于最近邻居的广告推荐列表;另一方面,根据用户当前搜索行为,结合用户兴趣偏好,得到基于用户搜索行为的广告推荐列表,最后,结合基于最近邻居的推荐列表和基于搜索行为的推荐列表,去除目标用户已浏览的广告,得到最终的广告推荐列表。该方法不仅能有效缓解用户行为数据稀疏的问题,还能在一定程度上解决用户冷启动问题和提高推荐算法的准确度。

基于最近邻居的推荐列表

本文借鉴协同过滤基于集体智慧进行推荐的思想[13],首先,对用户进行兴趣建模,得到用户兴趣分布;其次,计算用户之间相似度,寻找目标用户TOP-N最近邻居;再次,选择每个最近邻居的TOP-T兴趣;最后,选择每个兴趣下的TOP-K广告,并对得到的N×T×K广告进行排序,得到目标用户最近邻居兴趣偏好内的广告,具体的推荐流程如图3.1所示。

3.1基于最近邻居推荐流程

考虑到每个用户在用户-兴趣矩阵中的各个兴趣之间存在相互关系,本文采用基于KL距离的方法计算用户之间的相似度[8]。KL距离(又称KL散度),可以表示相同事件空间里两个概率分布的差异情况,KL距离取值越大,表明两个分布p和q差异越大,反之差异越小。基于KL距离的用户相似度计算公式如下:

 

( 4 )

其中,称为分布P关于分布q下的KL散度,同样,称为分布q关于分布p下的KL散度。根据用户i,j的相似性可以得到用户i相对于j关于兴趣zk的相似度,计算公式如下:

 

( 5 )

其中,k∈[1,T],zk表示从i的最近邻居j中选出来的每一个兴趣,P(zk|ui)表示兴趣zk关于目标用户i的概率,sim(i,j)为用户i和j之间的KL相似性,为从用户j中提取的T个主题相对于用户j的平均概率。

基于用户行为的推荐

本文根据贝叶斯理论,在已知用户搜索了某个关键词的情况下,通过贝叶斯公式计算该词属于兴趣-行为矩阵中各兴趣的概率,选择TOP-T兴趣;然后,选择兴趣下的TOP-K广告,并对T×K广告进行排序,得到用户搜索关键词最可能属于的兴趣内的广告,其推荐流程如图3.2所示:

3.2 基于用户行为推荐流程

在已知用户搜索了某个关键词的情况下,根据贝叶斯公式可以得到该用户对应某个兴趣的最大后验概率,其计算公式如下:

 

( 6 )

其中,P(w|z)为token在兴趣-行为矩阵中的值,wj表示用户的搜索关键词, num(wj)为模型训练时关键字wj出现的次数,为所有关键词出现的次数之和。

根据后验概率与用户当前的搜索行为词wj来预测目标用户i当前最可能感兴趣的兴趣主题,公式如下:

 

( 7 )

其中,wj表示用户的搜索关键词,表示在用户的当前搜索行为中关键字wj出现的次数,为用户当前搜索行为中所有关键词出现的次数之和。

四、   实验分析

实验准备

本文在腾讯搜索引擎1000个用户在6个月内的14万条搜索行为数据上评估用户-兴趣-行为模型和基于用户邻居及行为推荐方法的有效性,数据集特征如表4.1所示。

4.1 数据集特征

关键特征

记录总数

140076

用户数

1000

Ad_id

14990

关键词数

27345

模型训练

本文采用困惑度(Perplexity)指标对实验结果进行度量,得到模型的最优参数。perplexity是衡量主题模型性能的常用方法。对模型效果进行评估时,Perplexit的取值越小,表示模型效果越好。Perplexity定义如公式如下:

 

( 8 )

其中为测试集,为测试集中可观测到的关键词,代表文档m中token在主题模型中的概率,其计算公式为,即该token在所有主题分布中的值与其在文档m的主题分布中的值的乘积。

本文分别在兴趣-行为矩阵中截取token个数为100、1000和不截取时,计算perplexity值,确定最优兴趣个数和迭代次数,实验结果如图4.1、图4.2所示:


4.1 兴趣对应的模型困惑度

4.2 迭代次数对应的模型困惑度


由图4.1可知,perplexity在兴趣数为50时开始收敛,说明兴趣数取50时,模型性能趋于稳定,且模型性能对数据截取方式不敏感,由图4.2可知,模型在1000words时迭代200次后性能最好。综上,我们得出兴趣数=50,迭代次数=200时模型性能达到最优。

取兴趣数=50,迭代次数=200,计算模型perplexity确定最优超参数αβ。试验结果如图4.3所示:


4.3 超参数对应的模型困惑度

由图4.3可知:一方面,模型性能在α=0.5时明显优于α等于0.1和1时,说明主题建模界常用的设置(α = 50/K)在本数据集上并不适用,这里根据实验数据,我们应该设置α=0.5;另一方面,三种α对应的β值均在其等于0.01处开始收敛,因此可以设置β=0.01。

对比试验

本文设置兴趣数=50,迭代次数=200,超参数α=0.5,β=0.01,训练得到用户-兴趣-行为模型,采用十折交叉方法验证基于最近邻居和用户行为推荐方法与基于内容推荐方法效果,试验结果如图4.4、图4.5、图4.6所示。


4.4 两种推荐方法准确率



4.5 两种推荐方法召回率


4.6 两种推荐方法F1


如图所示,基于最近邻居和用户行为推荐方法的准确率和召回率均略高于基于内容推荐方法,此外,前者由于在形成推荐列表时考虑了广告在兴趣中的概率值,其成功推荐的广告主要集中在列表前半部分,这也进一步加大了推荐广告被用户喜欢的可能性。由图4.6可知,基于最近邻居和用户行为推荐方法的F1值高于基于内容推荐方法,且始终比较稳定,说明基于最近邻居和用户行为推荐方法适应性比较强。

五、   总结

本文基于用户-兴趣-行为模型提出一种基于最近邻居和用户行为的个性化广告投放方法。首先,综合考虑了网络广告的非结构化特征,分析搜索引擎用户的搜索行为及广告点击行为,提出了一种基于LDA的用户-兴趣-行为模型,其可以发现用户的兴趣偏好。其次,分别基于最近邻居和用户行为得到初始广告推荐列表,最后综合两种方法得到的推荐列表,去除目标用户已经浏览过的广告,产生最终广告推荐列表。实验结果证明基于最近邻居和用户行为的个性化广告推荐方法可以实现个性化广告的推荐且效果优于基于内容的推荐方法。

 

本论文来源于项目:

(1)国家自然科学基金资助项目(编号:71201004);

(2)北京市教育委员会科技发展计划面上项目(编号:KM201310011009)


参考文献

[1]      http://www.slideshare.net/wearesocialsg/2016-digit al-yearbook

[2]      饶泓,何宇东,李娒竹.一种改进的关联规则个性化推荐方法[J].微计算机息,2012,28(9):436-438.

[3]      李娜. 基于增量学习的精准广告投放系统研究[D]. 山西:山西财经大学,2010.

[4]      Heung-Nam Kim, Majdi Rawashdeh, Abdullah Alghamdi, Abdulmotaleb El Saddik. Folksonomy- based personalized search and ranking in social media services[J]. Information Systems.2012, 37: 61-76.

[5]    Xu, G., Wang, H., The Development of Topic Models in Natural Language Processing [J] CHINESE JOURNAL OF COMPUTERS, 2011, 34 (8) : 1423-1436.

[6]      张晨逸,孙建伶,丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011,48(10): 1795-1802.

[7]    Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research3: 993-1022.

[8]    Rosen-Zvi, M., Griffiths, T., Steyvers, M., and Smyth, P., The author topic model for authors and documents. In UAI’04, pp. 487-494, 2004.

[9]    Wang, C., and Blei, D., "Collaborative Topic Modeling for Recommending Scientific Articles," Proc. ACM 17th ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, pp. 448-456, 2011.

[10]Liu, Q., Chen, E., Xiong, H., Ge, Y., Li, Z., and Wu, X.,"A Cocktail Approach for Travel Package Recommendation," IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 2, FEBRUARY 278-293, 2014.

[11]  Joan, B., Antonio, M., Aida, V., Intelligent tourism recommender systems: A survey, Expert Systems with Applications 41 (2014) 7370-7389

[12]Yue Liu, Shimin Wang and Qian Cao. Research on Commodities Classification Based on LDA[C] IMM 2015, Lancaster: DEStech Publivations 2015: 189-191.

[13]Latha-Banda A., K.K. Bharadwaj, An Approach to Enhance the Quality of Recommendation Using Collaborative Tagging, International Journal of Computational Intelligence Systems, Volume 7, Issue 4, July 2014, pages 650-659.

本刊创刊于1982年,是由自治区科技厅主管、自治区科技信息研究院主办,由自治区科技情报学会协办、国内外公开发行的省级综合性科技刊物,是反映内蒙古自治区科技与经济发展的窗口。杂志入选《中国期刊全文数据(CJFD)》全文收录期刊和《中国学术期刊综合评价数据(CAJCED)统计刊源期刊,《中国核心期刊(遴选)数据库》收录。本刊是公开发行的综合性科技期刊,为月刊,大16开本。本刊坚持以科技创新为目标,融科技、经济、信息、产业、市场为一体,是促进科技成果转化、推动科技进步、加强技术创新,促进经济发展的专业性期刊。