基于微博数据的用户画像构建方法研究文献综述
2020-04-14 16:19:26
互联网用户的数量飞速增加,用户属性更加多元化,使得大数据的应用与创新成为一个重要关注点。通过用户的网络行为,分析用户的特征,无论在理论研究中还是实际应用中,都是一个热门话题。大数据用户特征分析,整合海量用户数据,将用户标签化,使得计算机能够程序化处理与人相关的信息,通过机器学习算法、模型能够“理解”人。深度分析用户特征,在理论研究上可以更好地挖掘事件关联及预测事件;对于企业而言,无论是搜索引擎、推荐系统、广告投放等各种应用领域,都可以进一步提高获取信息的精准度和效率。
国内近几年,基于大数据的用户群体特征分析是研究热点,在新浪微博的研究上,曾鸿等构建了大数据环境下的用户画像,选取当代十分具有代表性的明星,研究他们的粉丝群体特征。彭希羡等以新浪微博为视角,研究新浪微博上不同的用户性别、认证情况、地区、个性域名、昵称以及描述等指标进行统计分析。在其他社交媒体的用户群体特征研究上,陈梅梅等与淘宝网合作依据全国网络消费者的调查数据,使用消费决策过程理论模型,对比分析我国网络消费者基本属性及购买行为特征,发现我国网络消费者主要关注产品功能、规格和价格,且商品价格承受能力与性别、年龄存在显著关系。符丹等从“海淘族”的用户属性、购物行为和购物体验三个维度出发,分析“海淘族”形成的影响因素及其典型特征。张继东建立了移动社交网络用户行为和偏好的预测机制。
可以看出,国内外对于用户群体特征的分析,不同的学者考虑的角度以及定义的指标不尽相同,而本文的主要研究工作是采集新浪微博的用户数据,结合微博文本情感分析技术、通过统计和聚类方法对用户进行画像,设计一种适用于微博等社交网络的关于消费者群体的特征分析技术。
目前,国内外学者在用户情感以及用户影响力两方面的研究都较多,Giatsoglou等提出一种基于机器学习和文本向量表示的新方法,能快速、灵活地检测出情感片段。Suresh等采用基于聚类的情感分析方法,提出一种新的模糊聚类模型。在用户影响力研究方面,Jendoubi等提出基于Twitter的两种用户影响力最大化模型,使用信念函数理论估计用户影响。Francalanci等开发了一种基于Twitter网络探索的可视化工具,通过浏览朋友的网络,根据分享内容的实际影响识别关键影响者。Lahuerta-Otero在识别有影响力的用户基础上,分析具有影响力的Twitter用户的微博博文内容和数量的特点。这为利用社交网络实施营销提供了新的切人点。
Web2.0时代催生了大量的社交媒体网络平台,微博就是其中一个典型平台。第40次《中国互联网发展统计报告》数据显示,截至2017年6月,中国网民规模来到7.51亿,根据2017年Q3微博财报数据显示,截至2017年9月,微博活跃用户共3.79亿,不难发现,微博已经成为中国网民的主要组成部分,其影响力不可小觑。研究微博平台的用户群体特征极具代表性及研究意义,能够帮助企业识别用户群体特征,更好地针对用户制定营销策略,提高生产率。
{title}2. 研究的基本内容与方案
{title}本文首先介绍了用户画像在大数据时代的重要作用,接着阐述了国内外关于用户群体分析的研究现状等相关情况,并以“新浪微博”用户数据为例,研究用户画像的构建方法,深度分析用户特征,将分析者从繁杂的用户数据中摆脱出来。这样作为商家、广告商,就能对该类人群进行微博广告投放,达到精准营销的目的。研究通过大数据爬虫技术采集用户在微博上的言论、行为和社交圈等公开数据信息,诸如年龄、地域、性别、关注数、粉丝数、兴趣标签等来获取数据,对所采集数据进行清洗,使用分词技术、情感倾向型分析、建立模型、基于权重的分类分析等技术对数据进行进一步的处理及文本情感分析,再使用K-means聚类算法分析用户行为,将用户分成一个个聚类,通过分析聚类中心将每一类用户抽象成高度精炼的短文本,将微博发表者进行聚类,归纳出不同类别的用户群体,提取该类人群标签,构建人群用户画像,画像之后的用户是一个个语意突出的短文本的集合。用户画像可以帮助分析者深入,快速的认识用户,并且协助进行用户二次分类。每一个精炼的短标签背后是基于大量数据的分析挖掘,因此大大的提高了数据的可用性。
3. 参考文献-
牛温佳.用户网络行为画像:大数据中的用户网络行为画像分析与内容推荐应用[M].电子工业出版社,2016.
-
赵曙光.高转化率的社交媒体用户画像:基于500用户的深访研究[J] .现代传播:中国传媒大学学报,2014(6) : 115-120.
-
Han Y, Xia K.Data Preprocessing Method Based on User Characteristic of Interests for Web Log Mining[C]//Instrumentation and Measurement, Computer, Communication and Control (IMCCC),2014 Fourth International Conference on. IEEE, 2014:867-872.
-
曾鸿,吴苏倪.基于微博的大数据用户画像与精准营销[J].现代经济信息,2016 (24).
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付