多模态社交媒体用户画像方法研究毕业论文
2020-02-16 22:49:11
摘 要
用户画像(user profiling)是指对用户的人口统计学特征、行为模式、偏好、观点、目标等进行标签化,是互联网时代实现精准化服务、营销和推荐的必经之路,在网络安全、管理和营运等领域具有重要意义。多模态社交媒体用户画像是指利用社交网络用户的内容信息(如发表的文本、图像和评论等)、行为记录(如浏览、转发、点赞、收藏等)、和链接结构(如用户之间的粉丝关系),对用户的不同维度进行画像,对完善及扩充社交媒体用户信息、分析社交媒体生态以及支撑社交媒体业务等方面具有非常重要的意义。
本文首先阐述了研究用户画像的意义以及描绘社交媒体用户画像方法的重要性,然后结合文本处理和图片处理获取数据,采用机器学习的思路建立分类模型,利用分类器集合投票的思想完成以多模态数据为基础针对用户性别的回归预测任务。对于文本,本文采用了文本向量化的方式进行处理;对于图片,本文采用了SIFT算法提取图片特征,并用视觉词袋模型进行整理。对于性别预测,本文采用了单模态数据分类模型与多模态数据分类集成模型,其中均采用了LR、SVM以及随机森林分类算法,并对每种模型进行了分析总结。
关键词:用户画像;机器学习;性别预测;多模态数据
Abstract
User profiling refers to tagging users' demographic characteristics, behavior patterns, preferences, viewpoints, goals, etc. It is the only way to realize accurate service, marketing and recommendation in the Internet era. It is of great significance in the fields of Internet security, management and operation. Multimodal user on social media portrait refers to the use of social network users' content information (such as published text, images and comments), behavior records (such as browsing, forwarding, praise, collection, etc.), and link structures (such as fan relationships among users) to portrait users in different dimensions, which is of great significance in improving and expanding social media user information, analyzing social media ecology and supporting social media business.
Firstly, this paper expounds the significance of studying user portraits and the importance of depicting social media user portraits. Secondly, combining text processing and picture processing to obtain data, a classification model is established using the idea of machine learning, and a regression prediction task for user gender based on multimodal data is completed using the idea of classifier set voting. For the text, the text vectorization is adopted in this paper. For pictures, this paper uses SIFT algorithm to extract picture features, and uses visual word bag model to sort them out. For gender prediction, this paper adopts a single-modal data classification model and a multi-modal data classification integration model, in which LR, SVM and random forest classification algorithms are adopted, and each model is analyzed and summarized.
Key words: User profiling; Machine learning; Gender prediction; Multimodal data
目录
摘要 I
Abstract II
第1章 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究背景与现状分析 1
1.3 研究内容以及采用的技术方案 2
1.4 论文组织结构 3
第2章 数据预处理 4
2.1 多模态用户画像数据简介 4
2.2 数据处理方法 5
2.3 文本向量化 6
2.4 图片数据的SIFT算法处理 6
2.5 视觉词袋模型 7
2.6 数据归一化 7
2.7 本章小结 8
第3章 单模态数据下用户性别分类模型 9
3.1 单模态数据分类器性别预测流程 9
3.2 LR分类模型 9
3.3 SVM分类模型 11
3.4 随机森林分类模型 11
3.5 本章小结 12
第4章 多模态数据用户性别分类集成模型 14
4.1分类模型集成的思想 14
4.2集成模型 14
4.3分类器集合投票 15
4.4本章小结 16
第5章 总结与展望 17
参考文献 18
致谢 19
第1章 绪论
1.1 研究目的及意义
用户画像(user profiling)是指对用户的人口统计学特征、行为模式、偏好、观点、目标等进行标签化,是互联网时代实现精准化服务、营销和推荐的必经之路,在网络安全、管理和营运等领域具有重要意义。多模态社交媒体用户画像是指利用社交网络用户的内容信息(如发表的文本、图像和评论等)、行为记录(如浏览、转发、点赞、收藏等)、和链接结构(如用户之间的粉丝关系),对用户的不同维度进行画像,对完善及扩充社交媒体用户信息、分析社交媒体生态以及支撑社交媒体业务等方面具有非常重要的意义。
不同的行业对于用户画像的需求不同,导致不同的行业的用户画像模型也各不相同,但其核心目的都是提取用户特征。以微博为例,通过不断增加并分析数据,我们可以对整体用户进行画像,按照某种方式分类,得到每种用户的大致数量。这样一来有助于我们划分用户群体,有利于提高包括广告的微博内容的定向推送的效率。在电商领域,商家通过对用户行为的分析发现用户的使用偏好与使用习惯,有助于商家对于消费者的划分,这一点对于精准营销意义重大。另外,用户在网络上更倾向于隐藏自己的个人信息。在公安或者国防领域,在一些特定情况下利用用户有限的社交信息精准描绘出用户的静态属性将有利于相关部门采取有效的控制措施,以保障社会安定
1.2 国内外研究背景与现状分析
对于用户画像的研究近年来十分热门,现在已经出现了基于微博数据的用户画像预测系统[7]。作为数据挖掘技术在社交媒体领域的重要应用,用户画像本质上是对现实世界中用户的一种数学建模,其核心在于标签体系的建立[5],从而对用户的兴趣、爱好等进行描述。国内有研究团队创新性地提出了用户画像研究的三个基本构成要素,即代表用户出生的用户属性、记录用户一生的用户行为、描述用户消失的用户流失[5]。常见预测的标签包括但不仅限于性别、年龄、爱好以及所处地域。传统上来说社交网络用户属性推测均采用监督学习的方法,包括决策树算法和k近邻算法等[1],也有研究团队提出过采用半监督学习的方式进行预测[2],甚至采用无监督学习的方法,取得了不错的成果[15]。
国内的研究数据主要来自于新浪微博[6]与腾讯微博[1],而国外的研究团队将精力主要集中在对Twitter上各种语种的推文进行分析,甚至举办过相关的比赛[13]。诸多团队都选择了从对性别与年龄预测的研究入手。有团队以用户昵称和微博内容为依据,采用基于规则和基于模型的汉语分词方法,分别设计出了进行性别分类的算法[1]。有研究表明,如果采用最大熵方法构建分类器,基于用户发表的微博内容文本的分类方法可以达到较高的识别准确率[4]。也有团队在该基础上更进一步,采用多种算法分类并对分类结果进行比较和讨论,最后提出基于监督聚类的组合分类能够进一步提高分类的准确率[3]。国外有团队收集了大约242万英语用户的数据集,提出并评估了一些Twitter用户特有现象的特征,并利用无监督学习的方法取得了96%的准确率[15]。
社交媒体数据不仅仅只有文字,还包括图像和视频。国内外大部分的研究重点已经开始逐步转移到了对多种类数据源的处理分析上[14]。其中应用最广的是构建深度网络。例如CMLDA跨模态概率模型,主要用于探究微博中图片和文本内容的关联性。其中,图像处理技术作为计算机应用学科中一个重要分支, 应用领域也随之变得极其广泛[9]。常见的图像处理包括图像分割、图像分类、目标检测等[11]。作为训练数据集,用户发表的微博内容中的图片也可以被抽象为特征向量。对于图像的数值化,往往要经过灰度处理、自适应二值化处理和形态学滤波处理这些步骤才能得到所需的特征矩阵形态。形态学滤波处理可以采用膨胀算法或者腐蚀算法[8]。经典的图像处理算法包括SIFT和SURF,但这些算法效率比较低,采用的特征泛化性也不高,如果结合优秀的分类算法,比如随机森林,AdBoost,SVM就能取得不错的分类效果。深度学习今年来成为了机器学习的大趋势,尤其是在图像识别方面的应用[10]。深度学习领域常用的图像处理算法包括受限波尔曼兹机、自动编码器和卷积神经网络等[12]。
1.3 研究内容以及采用的技术方案
研究的基本内容是利用给定的社交媒体数据(用户微博中的文本与图片),进行社交媒体用户画像,对用户性别进行预测。
研究的内容主要涉及到社交网络中的用户属性推测问题,数据来自PAN 2017 the 5th Author Profiling Task提供的数据集。设计的系统将识别用户推文的文本内容,同时处理推文中的图片,结合两者为依据采用多种算法对用户的性别进行预测,并计算出每种算法的准确率。
技术方案如下:
1、利用SIFT处理数据集中每一篇推文中的图片,形成局部特征描述子集合,以此构建视觉词袋模型,将图片转化为特征向量;
2、利用文本处理技术处理每一篇推文中的文本内容,与之前的数据结合构建训练数据集;
3、分别采用三种算法构建分类器:逻辑回归,随机森林和SVM。用训练数据集训练分类器,构建模型,将测试数据集送入分类器进行训练;
4、将三种方法分别进行集合,采用分类器投票的思想进行预测,探究其预测的效果;
1.4 论文组织结构
本文一共划分为五章,各章节内容介绍如下:
第一章:绪论。主要阐述了用户画像研究的意义,目前国内外学者对用户画像的相关工作,以及本文的目标。
第二章:数据预处理。介绍了本文所采用的数据集,然后对机器学习的数据特点以及处理方式做了简单的介绍,包括文本处理和图片处理两个方面。文本处理介绍了文本分词和向量化的思想,图片处理介绍了SIFT算法以及视觉词袋模型,最后阐述了数据标准化的思想。
第三章:单模态数据下用户性别分类模型。本章介绍了三种不同的分类器:1.Logistic Regression(逻辑回归);2.Random Forest(随机森林);3.SVM(支持向量机)。针对图片与文本数据均训练了三种不同的分类器,为之后的集成投票奠定基础。
第四章:多模态数据用户性别分类集成模型。对训练好的分类器集成处理,完成以图片数据与文本数据为基础针对用户性别的回归预测任务,并对准确率进行分析。
第五章:总结与展望。对于多模态社交媒体用户画像方法的个人研究工作进行了总结,分析了不足的地方和有待改进与完善的部分。
第2章 数据预处理
2.1 多模态用户画像数据简介
本文使用的数据来自于由PAN 2017 the 5th Author Profiling Task大赛提供和整理的数据集[1]。该届大会的主题是Twitter中的性别和语言变体识别。数据集提供了多种语料的推文,本文选用了部分英语语料的推文以及这些用户所发布的图片。
数据集中包含了三种不同的信息: