多模态社交媒体用户画像方法研究文献综述
2020-04-14 19:59:04
1.1 研究目的及意义
用户画像(user profiling)是指对用户的人口统计学特征、行为模式、偏好、观点、目标等进行标签化,是互联网时代实现精准化服务、营销和推荐的必经之路,在网络安全、管理和营运等领域具有重要意义。多模态社交媒体用户画像是指利用社交网络用户的内容信息(如发表的文本、图像和评论等)、行为记录(如浏览、转发、点赞、收藏等)、和链接结构(如用户之间的粉丝关系),对用户的不同维度进行画像,对完善及扩充社交媒体用户信息、分析社交媒体生态以及支撑社交媒体业务等方面具有非常重要的意义。
不同的行业对于用户画像的需求不同,导致不同的行业的用户画像模型也各不相同,但其核心目的都是提取用户特征。以微博为例,通过不断增加并分析数据,我们可以对整体用户进行画像,按照某种方式分类,得到每种用户的大致数量。这样一来有助于我们划分用户群体,有利于提高包括广告的微博内容的定向推送的效率。在电商领域,商家通过对用户行为的分析发现用户的使用偏好与使用习惯,有助于商家对于消费者的划分,这一点对于精准营销意义重大。另外,用户在网络上更倾向于隐藏自己的个人信息。在公安或者国防领域,在一些特定情况下利用用户有限的社交信息精准描绘出用户的静态属性将有利于相关部门采取有效的控制措施,以保障社会安定。
1.2国内外的研究现状分析
对于用户画像的研究近年来十分热门,现在已经出现了基于微博数据的用户画像预测系统[7]。作为数据挖掘技术在社交媒体领域的重要应用,用户画像本质上是对现实世界中用户的一种数学建模,其核心在于标签体系的建立[5],从而对用户的兴趣、爱好等进行描述。国内有研究团队创新性地提出了用户画像研究的三个基本构成要素,即代表用户出生的用户属性、记录用户一生的用户行为、描述用户消失的用户流失[5]。常见预测的标签包括但不仅限于性别、年龄、爱好以及所处地域。传统上来说社交网络用户属性推测均采用监督学习的方法,包括决策树算法和k近邻算法等[1],也有研究团队提出过采用半监督学习的方式进行预测[2],甚至采用无监督学习的方法,取得了不错的成果[15]。
国内的研究数据主要来自于新浪微博[6]与腾讯微博[1],而国外的研究团队将精力主要集中在对Twitter上各种语种的推文进行分析,甚至举办过相关的比赛[13]。诸多研究团队都选择了从对性别与年龄预测的研究入手。有团队以用户昵称和微博内容为依据,采用基于规则和基于模型的汉语分词方法,分别设计出了进行性别分类的算法[1]。有研究表明,如果采用最大熵方法构建分类器,基于用户发表的微博内容文本的分类方法可以达到较高的识别准确率[4]。也有团队在该基础上更进一步,采用多种算法分类并对分类结果进行比较和讨论,最后提出基于监督聚类的组合分类能够进一步提高分类的准确率[3]。国外有团队收集了大约242万英语用户的数据集,提出并评估了一些Twitter用户特有现象的特征,并利用无监督学习的方法取得了96%的准确率[15]。
社交媒体数据不仅仅只有文字,还包括图像和视频。国内外大部分的研究重点已经开始逐步转移到了对多种类数据源的处理分析上[14]。其中应用最广的是构建深度网络。例如CMLDA跨模态概率模型,主要用于探究微博中图片和文本内容的关联性。其中,图像处理技术作为计算机应用学科中一个重要分支, 应用领域也随之变得极其广泛[9]。常见的图像处理包括图像分割、图像分类、目标检测等[11]。作为训练数据集,用户发表的微博内容中的图片也可以被抽象为特征向量。对于图像的数值化,往往要经过灰度处理、自适应二值化处理和形态学滤波处理这些步骤才能得到所需的特征矩阵形态。形态学滤波处理可以采用膨胀算法或者腐蚀算法[8]。经典的图像处理算法包括SIFT和SURF,但这些算法效率比较低,采用的特征泛化性也不高,如果结合优秀的分类算法,比如随机森林,AdBoost,SVM就能取得不错的分类效果。深度学习今年来成为了机器学习的大趋势,尤其是在图像识别方面的应用[10]。深度学习领域常用的图像处理算法包括受限波尔曼兹机、自动编码器和卷积神经网络等[12]。
{title}2. 研究的基本内容与方案
{title}2.1 研究的基本内容
利用给定的社交媒体数据(用户微博内容),进行社交媒体用户画像,对用户性别进行预测。
2.2 拟采用的技术方案及措施
研究的内容主要涉及到社交网络中的用户属性推测问题,数据来自PAN 2017 the 5th Author Profiling Task提供的数据集。设计的系统将识别用户推文的文本内容,同时处理推文中的图片,结合两者为依据采用多种算法对用户的性别进行预测,并计算出每种算法的准确率。
初步设计思路如下:
1、利用SIFT处理数据集中每一篇推文中的图片,形成局部特征描述子集合,以此构建视觉词袋模型,将图片转化为特征向量;