基于微博数据的用户画像研究毕业论文
2021-04-26 21:32:01
摘 要
用户画像最初是由交互设计之父Alan Cooper所提出来的关于Personas的概念。主要用在用户调研当中。由一些专职人员进行问卷调查、电话调查等,通过整理数据,理清用户之间的差别,抽象出可以概括用户的一系列特征的词语,赋予该用户这个特征。现在科技进一步发达,人们处在数据大爆炸的时代。可以利用机器学习、数据挖掘的相关技术对用户产生的一些网络行为数据、兴趣偏好以及他们在Web上发布的内容信息进行处理,进而得到用户的一些属性,包括一些统计学的属性、兴趣爱好的属性等等。本文主要通过微博用户发布的内容信息,即微博文本进行挖掘,得出用户的其中一个统计学标签,即性别的标签。
本文主要用有监督的方法来解决用户画像问题,传统的有监督学习认为训练样本越多越能提高预测的准确率,本文提出将训练样本分成若干个minibatch,分别训练,再采用bagging的融合方法对预测结果进行融合,能在一定程度上提高准确率。本文所做的工作主要包括:
1. 给出了微博用户画像工作的一般方法及过程。完成了微博数据的预处理,其中包括微博数据的清理和转化、微博文本的分词、向量化,以及从词向量到文档向量。紧接着又阐述了其他特征数据的归一化以及样本数据不均衡问题的解决方案。
2. 使用并比较了三种分类器:1.Logistic Regression;2.Random Forest;3.SVM。进行了一系列的对比实验,对Random Forest分类器的参数进行了选择实验,对SVM的两种类型和不同的核函数进行了对比实验,实验结果表明SVM模型效果最好,分类准确率达到76.34%
3. 通过对比实验,单个分类模型识别率偏低,本文提出将训练样本分割成若干小数据块,通过融合的方法提高准确率。实验结果表明通过这种方法能使SVM模型的准确率由76.34%提高到77.24%,提升0.9%。
关键词:微博;用户画像;标签;分类;
Abstract
Users profile was originally proposed by Alan Cooper, who is the father of interactive design.At that time, users profile was the concept of Personas, and it was mainly adopted in user research. We have to got many full-time staff to do questionnaire survey and telephone survey, and organize the data, finding out the difference between the users, abstracting the term that can conclude this users’ characteristics, and then giving the feature to this user.
Nowadays, technology is more and more developed, we are living in the world of data explosion. Now we can exploit the technology of machine learning and data mining to process some data of network behavior, content preferences, release of content by users on web, and then obtain some attribute of users, including some statistical attributes, hobby attributes and so on. This thesis mainly use the users output of content, microblogging text data, to do data mining, and then get one of the statistic labels: gender.
This thesis mainly use supervised method to solve the problem of users profile. Traditional supervised learning thinks that the more samples the higher accuracy, this thesis proposes to divide the training samples into several minibatch, and then use bagging fusion method to combine the predicted results for improving accuracy. What his thesis have done are as followed:
- This thesis have provided general method and process of users profile, and have finished the preprocess of the microblogging text data, including data cleaning and transformation, text segmentation, text vectorization and the procedure of word vector to document vector. And other features’ normalization and the solution of sample data imbalance are followed.
- This thesis have used and compare three classifiers:1.Logistic Regression; 2.Random Forest; 3.SVM. A series of comparative experiments have been carried out. The parameters of the Random Forest classifier have been experimentally selected, and two types of SVM and different kernel functions have been compared. The optimal strategy is using SVM model, and the accuracy can reach 76.34%
- From the comparative experiment, we can see that the accuracy of single model is relatively low. This thesis proposes to divide train set into several parts, and using fusion method to improve the accuracy. And by doing experiment, the accuracy have been improved from 76.34% to 77.24%, have improved 0.9%.
Key words: Microblog; User profile; Label; Classification
目录
摘要 I
Abstract II
第1章 绪论 1
1.1 研究背景及国内外研究现状 1
1.2 研究目的及意义 2
1.3 研究内容及目标 3
1.4 论文组织结构 3
第2章 微博数据预处理 4
2.1 数据说明及示例 4
2.2 微博数据的特点分析 5
2.3 数据的清理与转换 6
2.4 文本分词 6
2.5 文本向量化 7
2.5.1 训练词向量 7
2.5.2 从词向量到文档向量 8
2.6 数据归一化 8
2.7 非均衡数据集的处理 9
第3章 分类模型对比分析 10
3.1 Logistic Regression模型 11
3.2 Random Forest模型 11
3.3 SVM模型 13
3.4 实验结果对比 13
第4章 分类模型的融合 14
4.1 不同分类模型的融合 15
4.1.1 不同模型bagging融合 15
4.1.2 不同模型stacking融合 16
4.2 相同分类模型的融合 16
4.2.1 SVM模型bagging融合 17
4.2.2 SVM模型stacking融合 17
4.3 实验结果对比 18
第5章 总结与展望 19
参考文献 21
致谢 21
第1章 绪论
1.1 研究背景及国内外研究现状
作为一种在线社交网络,微博不仅具有社交网络的功能,更具有社会媒体的功能[1]。目前国内外对于微博数据挖掘的代表性的研究方向主要有:(1)话题事件分析[6];(2)情感分析;(3)信息检索与推荐;(4)网络关系分析;(5)信息传播;(6)影响力分析等。对于在线社交网络的研究主要有:(1)用户行为分析;(2)网络社区发现;(3)用户好友推荐;(4)用户属性推测等[1]。
从中文概念角度,用户画像近似等同于用户角色,而用户属性则是用户画像的子集,而从英文概念角度,用户画像、用户角色、用户属性三个概念都各有侧重[8]。用户画像更倾向与对同一类用户进行不同维度的刻画,主要涉及到情感分析、信息检索与推荐、影响力分析、微博用户分类和垃圾用户发现[15]等等;用户属性则更倾向于对属性层面的刻画,特别是一些基本的属性比较多,包括性别、年龄、地域等这样一些人口统计学的标签。从商业角度来说,用户画像很容易产生价值,用户画像可以被应用于搜索引擎、推荐系统当中,可以进行商品和服务的个性化推荐[2],进行精准营销,所以对此的研究比较多;用户属性的研究,如对用户属性的推测,即开发一些应用模型来发现社交网络中用户的一些隐私信息是机器学习应用中的一个热点问题。
社交网络是将真实社会关系映射到网络空间的一种新兴事物,它具有传统社会学中的一些特性,包括“小世界现象”,“同质性”和“共引性”[5]。基于这种社会学的原理,可以进行社区挖掘[9],同一个社区的人很有可能拥有相同的年龄、性别。对于社区挖掘,也有了许多方法,例如LPA等,还有一些基于LPA的改进算法,例如带有属于系数的LPA算法[13]。