微博信息监控程序的设计与实现毕业论文
2021-03-19 21:30:31
摘 要
随着互联网信息技术的发展,在这个信息时代中数据量的飞速增长已经远远超过我们的想象。如何快速有效的获取信息并且对这些信息进行分析,使之成为我们所需要的有用信息已经成为热门的话题。进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
在这种环境下,数据的获取与分析的价值将会显得愈发的重要。
新浪微博是由新浪网推出的微型博客服务类的网站, 它起源于美国的Twitte,是一款为大众提供娱乐休闲生活服务的信息分享和交流平台。截至到2017年,微博月月活跃用户达3.4亿,超越Twitter成为全球用户规模最大的独立社交媒体公司。微博有着如此大的用户量,它的数据有着极大的开发潜力。本文的工作目标是设计一个微博信息监控程序,针对特定的用户需求,可以实现对微博用户信息及微博信息的查询和分析。
微博信息监控程序主要包括微博信息获取和微博信息分析两部分。微博信息获取主要靠基于scrapy框架的爬虫部分实现,微博信息查询和分析主要由向量空间模型和深度检索以及中文分词来实现。本次毕业设计成果对于用户信息挖掘分析有着一定的参考价值。
关键词:scrapy;爬虫;新浪微博;数据挖掘;信息分析
Abstract
With the development of Internet information technology, in this information age, the rapid growth of the amount of data has far exceeded our imagination. How to get information quickly and efficiently and analyze this information makes it useful for us to become a useful topic. In 2012, the word big data was increasingly mentioned, and people used it to describe and define the massive data generated during the information explosion era and named the technology development and innovation associated with it. "Data has penetrated into every industry and business function area today and has become an important factor in production," says McKinsey. "People's mining and use of massive amounts of data indicates a new wave of productivity growth and a wave of consumer surpluses. In this environment, the value of data acquisition and analysis will become increasingly important.
Sina Weibo is a microblogging service site launched by Sina, which originated in the United States Twitte, is a public entertainment and leisure services to provide information sharing and exchange platform. As of 2017, microblogging monthly active users reached 340 million, beyond Twitter as the world's largest independent social media company. Microblogging has such a large user volume, its data has great potential for development. The purpose of this paper is to design a microblogging information monitoring program, for specific user needs, you can achieve microblogging user information and microblogging information query and analysis.
Microblogging information monitoring program mainly includes microblogging information acquisition and microblogging information analysis in two parts. Weibo information acquisition is mainly based on the rehearsal part of the scrapy framework. The microblogging information query and analysis are mainly realized by vector space model and depth search and Chinese word segmentation. The results of graduation design for the user information mining analysis has a certain reference value.
Keywords: Scrapy; crawler; Sina; micro-blog; data mining; information analysis
目录
第一章 绪论 1
1.1选题背景与意义 1
1.2程序开发工具 1
1.2.1PyCharm 5.0.3 1
1.2.2mongodb以及它的可视化工具Robomongo 2
1.2.3scrapy框架 2
第二章 需求与分析 3
2.1需求 3
2.1.1名词说明 3
2.1.2程序功能需求说明 3
2.2数据库设计 4
第三章 程序详细设计与实现 5
3.1微博信息监测程序的实现模型 5
3.2微博爬虫的运行原理 6
3.3微博信息的描述模型 7
3.3.1微博中的信息所有的特点 7
3.3.2微博文本信息检索模型 7
3.4爬虫框架scrapy各部分的实现 9
3.4.1scrapy的组成部分 9
3.4.2数据处理流程 10
3.4.3scrapy几个核心部分的分析 10
第四章 微博信息分析部分的实现 19
4.1深度检索的实现方法 19
4.1.1信息的获取 19
4.1.2中文分词 20
4.2其他分析功能的实现 22
第五章 总结与展望 26
参考文献 27
致谢 28
第一章 绪论
1.1选题背景与意义
微博(Weibo),即微型博客(MicroBlog)的简称,也即是博客的一种,是一种通过关注机制分享简短实时信息的广播式的社交网络平台。早起源于国外的twitter。2007年至2008年,国内较早期的微博平台饭否网、叽歪网出现在网民的视野中,正式将微博这一新型的网络社交平台引入中国。但在微博的引入阶段,微博并没有引起网络主流人群的关注。直到2009年,从新浪微博的上线到迅速成长为中国最具影响力的微博,微博在中国焕发出新的活力,“微博时代”正式到来。
微博是一个基于用户关系信息分享、传播以及获取的平台。用户可以通过WEB、WAP等各种客户端组建个人社区,以140字(包括标点符号)的文字更新信息,并实现即时分享。微博的关注机制分为可单向、可双向两种。