基于微博数据的用户画像系统的设计与实现文献综述
2020-04-15 15:32:00
1.1目的在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。大数据时代的到来,使得分析用户的行为、兴趣爱好和喜怒哀乐成为了企业具有竞争力的关键。随着大数据技术的深入研究与应用,“用户画像”的概念也逐渐形成。 用户画像,即用户信息标签化,根据用户社会属性、生活习惯和消费行为等信息得出的一个标签化的用户模型,进而抽象出一个用户的信息全貌。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。 本课题所研究的画像系统目的就是基于微博数据,将用户数据信息,通过数据挖掘进行画像,为用户群体打上精炼概括的短文本标签。 1.2意义用户画像能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。 在产品项目中可以让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计,为具体的人物做产品设计要远远优于为脑中虚构的东西做设计,也更来得容易。除产品外还可以帮助企业精准营销、做行业报告和用户研究。精准营销是用户画像或者标签最直接和有价值的应用,而通过用户画像又可以分析了解行业动态,行业的洞察可以指导平台更好的运营、把握大方向。 1.3研究现状分析近几年来,用户画像不仅在学术界受到了广泛关注,同时对企业竞争力的影响也越来越大,逐渐成为各行各界所关注的热点问题。目前国内已经有很多公司推出了比较成熟的用户画像平台,如广点通、信鸽和神策等,但在学术方面我国有关于用户画像的研究成果和论文还比较少,并且有一部分还只是间接与用户画像相关。 用户画像现在可用到的数据挖掘算法比较多,其中主要的有K-means算法、决策树算法、线性回归算法、树回归算法等。在开发语言上由于Python的分析数据库比较全面,所以在数据挖掘中比较占据优势,是目前市面上用于大数据分析的最优先的选择。
|
2. 研究的基本内容与方案
{title} 2.1研究的主要内容本课题主要进行基于微博数据的用户画像系统设计及具体实现,主要研究内容包括: 1) 掌握和学习R语言、python语言。 2) 可视化及交互设计,研究bootstrap等前端开发框架,从可用性和用户体验的角度出发对画像系统的界面进行设计。 3) 研究新浪微博API接口获取数据。新浪微博API接口有包括微博、评论、用户等二十余类接口,本课题只需研究数据获取API。除此之外还需研究如何获得OAuth2.0用户授权和API调用频率限制。OAuth是目前国际通用的授权方式,通过OAuth认证可以容易的获得用户信息。微博的接口在一定的时间单位(每小时、每天)下是有调用的频率限制的,增加刷新频率也无法完全达到获取即时信息的效果,而需要分析的是动态的用户行为数据,所以在编写代码时,要结合接口的调用情况,尽量完全的获取即时信息。 4) 了解和学习用户画像的概念及相关的数据挖掘知识,实现对画像系统功能的开发与设计,包括:单人用户画像功能、人群用户画像功能。 2.2研究方法根据研究内容和涉及的相关技术,拟采用以下方案进行项目研究: 1) 使用bootstrap和jQuery等前端开发框架对画像系统的可视化交互界面进行设计。 2) 运用python语言对系统进行编程,使用eclipse集成插件PyDev进行开发。 3) 结合K-Means聚类分析算法和统计法给出用户标签。 4) 用mysql数据库存储用户信息、用户行为信息和微博信息。
|
[1]李映坤. 大数据背景下用户画像的统计方法实践研究[D].首都经济贸易大学,2016. [2]林燕霞,谢湘生.基于社会认同理论的微博群体用户画像[J].情报理论与实践,2018,41(03):142-148. [3]张哲. 基于微博数据的用户画像系统的设计与实现[D].华中科技大学,2015. [4]用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用 牛温佳,刘吉强,石川著 电子工业出版社,2016.03 [5] Farnadi G,Tang J, Cock M D, et al. User Profiling through Deep Multimodal Fusion[C]//the Eleventh ACM International Conference. ACM, 2018:171-179. [6]张波,李舸.基于改进聚类算法的Web异常数据挖掘软件设计[J/OL].现代电子技术:1-7[2019-02-23]. [7]吕鹏辉.基于网络爬虫的新浪微博数据获取方式研究[J].电脑知识与技术,2017,13(33):9-12. [8]聂晶.Python在大数据挖掘和分析中的应用优势[J].广西民族大学学报(自然科学版),2018,24(01):76-79. [9]王洋,丁志刚,郑树泉,齐文秀.一种用户画像系统的设计与实现[J].计算机应用与软件,2018,35(03):8-14. [10]刘海鸥,孙晶晶,苏妍嫄,张亚明.国内外用户画像研究综述[J].情报理论与实践,2018,41(11):155-160. [11]聂晶.Python在大数据挖掘和分析中的应用优势[J].广西民族大学学报(自然科学版),2018,24(01):76-79. [12] Koh,Byungwan.User profiling in online marketplaces and security The University ofTexas at Dallas, ProQuest Dissertations Publishing, 2011. 3474675. [13]GAUCH S,SPERETTA M.User profiles for personalized information access[C]. The Adaptive Web,Methods andStrategies of Web Personalization DBLP,2007: 5489. [14]GIUSEPPE A,UMBERTO S.User profile modeling and applications to digital libraries [C] . The 3rd European Conference on Research and Advanced Technology for Digital Libraries, 1999: 184197 [15]马安华 . 基于用户行为分析的精确营销系统设计与实现 [D] . 南京: 南京邮电大学,2013. [16]费鹏,林鸿飞,杨亮,等. 一种用于构建用户画像的多视 角融合框架[ J] . 计算机科学,2018,45 ( 1) : 179182. [17]王宪朋 . 基于视频大数据的用户画像构建 [J] . 电视技 术,2017,41( 6) : 2023. |