基于微博数据的用户画像构建方法研究开题报告
2020-02-18 12:15:49
1. 研究目的与意义(文献综述)
互联网用户的数量飞速增加,用户属性更加多元化,使得大数据的应用与创新成为一个重要关注点。通过用户的网络行为,分析用户的特征,无论在理论研究中还是实际应用中,都是一个热门话题。大数据用户特征分析,整合海量用户数据,将用户标签化,使得计算机能够程序化处理与人相关的信息,通过机器学习算法、模型能够“理解”人。深度分析用户特征,在理论研究上可以更好地挖掘事件关联及预测事件;对于企业而言,无论是搜索引擎、推荐系统、广告投放等各种应用领域,都可以进一步提高获取信息的精准度和效率。
国内近几年,基于大数据的用户群体特征分析是研究热点,在新浪微博的研究上,曾鸿等构建了大数据环境下的用户画像,选取当代十分具有代表性的明星,研究他们的粉丝群体特征。彭希羡等以新浪微博为视角,研究新浪微博上不同的用户性别、认证情况、地区、个性域名、昵称以及描述等指标进行统计分析。在其他社交媒体的用户群体特征研究上,陈梅梅等与淘宝网合作依据全国网络消费者的调查数据,使用消费决策过程理论模型,对比分析我国网络消费者基本属性及购买行为特征,发现我国网络消费者主要关注产品功能、规格和价格,且商品价格承受能力与性别、年龄存在显著关系。符丹等从“海淘族”的用户属性、购物行为和购物体验三个维度出发,分析“海淘族”形成的影响因素及其典型特征。张继东建立了移动社交网络用户行为和偏好的预测机制。
可以看出,国内外对于用户群体特征的分析,不同的学者考虑的角度以及定义的指标不尽相同,而本文的主要研究工作是采集新浪微博的用户数据,结合微博文本情感分析技术、通过统计和聚类方法对用户进行画像,设计一种适用于微博等社交网络的关于消费者群体的特征分析技术。
2. 研究的基本内容与方案
本文首先介绍了用户画像在大数据时代的重要作用,接着阐述了国内外关于用户群体分析的研究现状等相关情况,并以“新浪微博”用户数据为例,研究用户画像的构建方法,深度分析用户特征,将分析者从繁杂的用户数据中摆脱出来。这样作为商家、广告商,就能对该类人群进行微博广告投放,达到精准营销的目的。研究通过大数据爬虫技术采集用户在微博上的言论、行为和社交圈等公开数据信息,诸如年龄、地域、性别、关注数、粉丝数、兴趣标签等来获取数据,对所采集数据进行清洗,使用分词技术、情感倾向型分析、建立模型、基于权重的分类分析等技术对数据进行进一步的处理及文本情感分析,再使用K-means聚类算法分析用户行为,将用户分成一个个聚类,通过分析聚类中心将每一类用户抽象成高度精炼的短文本,将微博发表者进行聚类,归纳出不同类别的用户群体,提取该类人群标签,构建人群用户画像,画像之后的用户是一个个语意突出的短文本的集合。用户画像可以帮助分析者深入,快速的认识用户,并且协助进行用户二次分类。每一个精炼的短标签背后是基于大量数据的分析挖掘,因此大大的提高了数据的可用性。
3. 研究计划与安排
第1-4周:收集和整理资料。
第5-6周:拟定提纲,提交开题报告。
第7-13周:撰写论文初稿和修改稿,保持与指导教师的沟通。
4. 参考文献(12篇以上)
-
牛温佳.用户网络行为画像:大数据中的用户网络行为画像分析与内容推荐应用[m].电子工业出版社,2016.
-
赵曙光.高转化率的社交媒体用户画像:基于500用户的深访研究[j] .现代传播:中国传媒大学学报,2014(6) : 115-120.
-
han y, xia k.data preprocessing method based on user characteristic of interests for web log mining[c]//instrumentation and measurement, computer, communication and control (imccc),2014 fourth international conference on. ieee, 2014:867-872.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付