基于微博大数据的用户兴趣可视化研究文献综述
2020-04-14 22:09:43
随着互联网的蓬勃发展,互联网用户数量快速增加,社交网络的飞速发展对用户的个性化服务设计提出了更高要求,尤其是新浪微博的出现,使得上亿用户自发联结、组织,构成了一张前所未有的巨大虚拟网络,在客观上深刻而广泛地改变了大众的某些生活方式,积累了大量的用户行为数据。在如今的大数据时代,企业已经不甘于仅仅是保存这些用户数据,而是希望通过对用户行为的分析去发现新的商业模式。完成基于微博用户行为的兴趣模型构建和可视化研究,能够使产品设计者快速地理解和跟踪用户需求,从而第一时间完成产品的更新换代,更能够精确为用户提供最好的服务。一个互联网产品想要成功,首先必须找到产品对应的用户群。没有精准的用户分析和定位,就不会有成功的产品。社区聚类对于提供个性化推送及服务有很大的帮助。
新浪微博自发布出来,对我们生活中的一些行为产生了极大的影响和改变;随着微博的持续高速发展,微博在各方面得到了极大的关注,吸引着各界学者的和分析,统计学、心理学、学等一些领域对微博开展了深度的研究和挖掘。在整理和学习有关微博方面的科学时,就包括了微博用户研究的收获。有关于用户特征的分析,杨小朋、何跃通过Spearman和Pearson研究得出的相关系数,分别来对一个博文的听众的数量以及收藏该博文的人数、博文魅力指数等变量进行分析,通过K-Means聚类算法对选定的微博用户的听众人数和微博的魅力指数进行聚类分析。
用户兴趣的分析需要大量的数据作为基础,因此基础数据平台的建设非常重要。没有稳定可靠的数据源,就不可能有效的分析。目前在国内,许多中小公司的数据缺乏统一的规范,很难有效的利用,百度,阿里,腾讯等互联网巨头布局较早,都拥有比较大且完备的数据中心。用户兴趣分析可以使用的数据挖掘方法较多,主要包括聚类分析,因子分析,对应分析,相关分析,回归预测等。目前主流的语言是R和python。R是天生的数据挖掘语言,Python 则是因为其简单而强大的语法和丰富的数据挖掘开发包受到了广大数据分析人员的欢迎。
除此之外,还有许多功能强大的开源数据挖掘软件可供我们使用,比如 Orange,Weka,KNIME 等。
目前国内外许多公司,特别是坐拥海量数据的大公司,已经在用户分析领域硕果累累。在国内,以 BAT(百度,阿里巴巴,腾讯)为首的三大巨头,甚至已经推出了一些较为成熟的分析平台。
{title}
2. 研究的基本内容与方案
{title}根据用户兴趣的相关数据,即用户兴趣分布向量,设计一个算法,对不同用户根据兴趣相似程度进行聚类,对聚类结果进行可视化表示。
检索出对应id的用户i以及与之相距(单元距离)不超过d的用户id集合。然后通过id集合寻找到对应的用户兴趣向量集合。使用python的sklearn库来实现k-means算法进行聚类。
根据提交的用户 id 信息搜索其在“用户兴趣分布向量”的文件中的向量,该向量是用户对当前所有话题的概率分布向量,利用 Echarts 对指定用户的向量进行饼图的绘制。