基于网络爬虫的社交网络数据分析系统设计与实现毕业论文
2021-03-14 21:42:53
摘 要
互联网技术的发展给人类的社交带来了更加快捷的享受。用户每天都可以接触到各个领域以及日常生活的各种数据,或者存在于网络,或者存在于硬盘。巨大的数据每天都在产生,人类一直都在这些爆炸般存在的数据中查找其感兴趣的内容。随着网络技术的提升,大量的信息存储在网络中,而其中有利用价值的信息的提取是人们的挑战。用户期待从互联网的到更多的内容,这就引出了网络爬虫技术。通过网络爬虫技术,用户可以将网页上看得见的内容需要的内容存储到自己的设备中。
社交网络的兴起,吸引了越来越多的用户。人们通过社交网络参与对新闻信息的讨论,由此社交网络的数据产生也是巨大的。在国内,新浪微博符合用户交流分享的要求,形成了这样的一个平台。用户对某件事的讨论形成话题,新浪微博刚好提供了这样的一个机制,形成了大量的话题。热门话题榜实时反映了网络的热点讨论,也吸引更多感兴趣的用户关注话题甚至参与讨论。本文基于网络爬虫的技术,通过新浪微博API接口以及模拟登陆的方式获取数据,使用Python语言编程,从新浪微博平台获取热门话题以及参与用户信息,在数据分析方面采用数据挖掘的聚类算法,得到相似话题的结果,这个结果反映了用户感兴趣的话题或者向用户推荐同类话题,从而使新浪微博的话题功能更好的为人们所用。
关键词:网络爬虫;社交网络;模拟登陆;数据挖掘;聚类分析
Abstract
With the development of Internet technology, human social interaction is more efficient. Users can access a lot of data every day, these data are found from various fields and daily life, then people can store these data in the network cloud or mobile hard disk. Huge data is produced every day, and humans have always looked at the content of interest in these exploding-like data. With the upgrading of network technology, users store a lot of information in the network, and the use of the value of the information extraction is the challenge. Users expect from the Internet to more content, which leads to the network crawler technology. Through the web crawler technology, users can view the content of the content on the page needs to be stored in their own equipment.
The rise of social networks has attracted more and more users. People through the social network to participate in the discussion of news information, thus the social network data generation is huge. In China, sina twitter in line with the user to share the requirements of the exchange, and finally formed such a platform. Users of the discussion of a matter to form a topic, sina twitter just to provide such a mechanism to form a large number of topics. It can be said that the hot topic list has become the point of the network headlines, by analyzing the topic list we can know the user interested in the topic. This article based on the network reptile technology call sina twitter API and simulation landing sina twitter crawl data, through the Python language coding from the social network platform sina twitter extract special boring topic list and participate in the discussion of the user information, the use of data mining in the poly Class algorithm to analyze the data, get the results of similar topics, this result reflects the user interested in the topic or recommend similar topics to the user, so that sina twitter topic features better for people to use.
Key Words:web crawler;social networks;simulated landing;Data mining;cluster analysis
目 录
第1章 绪 论 1
1.1 社交网络数据分析的目的及意义 1
1.2 社交网络数据分析的国内外发展及研究现状 2
1.3 本文研究内容 3
第2章 网络爬虫与数据挖掘 5
2.1 网络爬虫 5
2.1.1 通用网络爬虫 5
2.1.2 聚焦网络爬虫 6
2.1.3 爬虫过程中存在的问题 8
2.2 网页的数据挖掘 8
2.2.1 数据挖掘功能 8
2.2.2 数据挖掘的聚类分析 9
2.2.3 凝聚层次聚类 10
2.3 本章小结 11
第3章 新浪话题数据的提取 13
3.1 Python语言 13
3.2 新浪的API接口 14
3.2.1 申请API接口 14
3.2.2 API接口的调用 15
3.3 新浪微博模拟登陆 18
3.3.1 分析登陆过程 18
3.3.2 模拟登陆 19
3.4 数据提取 21
3.4.1 静态页面数据提取 21
3.3.2 动态页面数据提取 24
3.5 本章小结 24
第4章 基于社交网络的数据分析 25
4.1 网络爬虫数据提取 25
4.2 数据分析处理 26
4.3 本章小结 29
第5章 结论与展望 30
5.1 论文工作总结 30
5.2 进一步研究展望 31
参考文献 32
致 谢 33
第1章 绪 论
1.1 社交网络数据分析的目的及意义
随着进入大数据时代,人们对网络新闻的关注度不断增强,这也使得众多应用于社交的门户网站逐渐进入人们的视野,国外的用户倾向于使用Twitter,而国内的用户倾向使用新浪微博。从古代开始,人们对信息就开始着手其获取方式,通过口头传播,信件等,直至如今的报纸、互联网、杂志等,其中互联网成为获取即时信息的最简单最快速的方式,如何更简洁快速的获取自己想要的信息成为社交网络应用的关注点。互联网的信息多种多样,每个人关注的重点也各有不同,此时分析社交网络数据提取个人关注的信息点变得尤为重要。
社交网络为人们的交流通过了广阔的平台,更是加快了人们从网络世界进入现实世界的步伐。人们在社交网络中进行信息发布、获取、交换的各种行为,是互联网数据增长快速的首要原因,从而也将无穷无尽的数据展现在人们眼前。新浪微博作为社交网络大平台,集聚了众多跨各个年龄段的用户,通过其编写微博分享实时的新鲜事。社交网络简单来说即是通过网络进行社会交往活动,以个人的形式或者以具有某一特点的团体的形式,本身具有很大的优势:第一用户使用黏性高,通过中国社交应用用户行为研究报告得出,社交网络用户每天花费时长在半小时以上;第二信息准确,用户通过认证个人的真实信息在网络平台注册,给开发者提供了数据进行更深一步的数据分析与商业推广应用。社交网络大量的数据是用户基于其关注的热点问题讨论产生的,这些数据对于分析这类问题的具体走向有这重要的作用,这也为社交平台的运营和推广提供了提供了发展方向。。存在于社交网络的年轻活跃的用户使得社交网络成为网络言论极其密集的平台,而对这些信息资源进行挖掘,就可以获得大量具有特殊价值的数据,以供信息采集者和开发者分析并进一步进行决策。