基于python的网络爬虫技术及数据分析毕业论文
2021-12-23 20:57:32
论文总字数:21372字
摘 要
如今电影的兴起逐渐成为了大家日常生活中交友聚会,陪伴家人的重要活动,电影不仅可以带给人们轻松愉悦的心情,同时也能映射出许多社会问题和引发人们的思考。但是人们不一定有时间到电影院观影,在大多数时候观影者也想要观看历年来的经典高分电影,这就需要网上的观影平台对各种电影进行分类和推荐。根据不同的观众的喜好能够分享不同类型的电影。
当今互联网的信息千变万化,人们对于信息的采集变得越来越困难与复杂,使用爬虫便可以快速的对信息进行采集,通过自定义的搜索策略得到用户需要的信息。但是大量的信息对于用户也是极其不友好,所以对信息进行整理分析是非常有必要的,可视化的出现也可以更好的实现对信息的展示。
本系统的主要模块有:爬虫,数据库存取,数据分析及可视化。实现的功能有:抓取电影的有效信息,将信息进行整理,分类,分析,并以不同的角度评判电影的优质程度。
本系统主要使用Python作为开发语言,使用MySQL作为数据库,使用的开发软件是Pycharm,开发出的一个基于Python的网络爬虫,对国内外优质电影进行信息爬取以及数据分析。
关键词:网络爬虫 PYTHON HTML MYSQL
Web crawler technology and data analysis
Abstract
Nowadays, the rise of movies has gradually become an important event for everyone to make friends and accompany their families in daily life. Movies can not only bring people a relaxed and happy mood, but also reflect many social problems and cause people to think. However, people do not necessarily have time to watch movies in cinemas. Most of the time, viewers also want to watch classic high-score movies over the years. This requires online movie viewing platforms to classify and recommend various movies. According to the preferences of different audiences, different types of movies can be shared.
With the ever-changing information on the Internet today, people have become more and more difficult and complicated to collect information. Using crawlers can quickly collect information, and obtain the information users need through custom search strategies. However, a large amount of information is extremely unfriendly to users, so it is very necessary to organize and analyze the information. The appearance of visualization can also better display the information.
The main modules of this system are: crawler, database access, data analysis and visualization. The functions realized are: grab the effective information of the movie, organize, classify and analyze the information, and judge the quality of the movie from different angles.
This system mainly uses Python as the development language, MySQL as the database, and the development software used is Pycharm, a Python-based web crawler developed to crawl and analyze high-quality movies at home and abroad.
Key words :Web crawler; Python; HTML;MYSQL
目录
摘要 I
Abstract II
第一章 绪论 1
1.1课题背景 1
1.2 目的和意义 1
1.3系统简介 2
1.4组织结构 2
第二章 系统体系结构 3
2.1网络爬虫简介 3
2.2开发工具 3
2.3开发技术 4
第三章 系统需求分析 8
3.1可行性分析 8
3.2系统功能需求划分和描述 9
3.3数据库需求分析 10
第四章 系统详细设计 11
4.1爬虫具体设计 11
4.2 数据库具体设计 14
4.3 数据分析具体设计 16
结 论 33
参考文献 34
致谢 36
第一章 绪论
1.1课题背景
随着科技的迅速发展,社会一天天的进步,互联网变得越来越庞大,网络上的信息更是爆炸增长。越来越多的网页,越来越丰富复杂的新闻信息,使得我们难以快速准确的得到自己想要的内容。
因此,搜索引擎开始进入我们的视野,并且成为了我们生活中不可或缺的一部分。而在搜索引擎中,搜集网页成为了其中非常重要的一个环节。只有搜索到众多的网页,才可以得到其中各式各样的内容。在用户看来,他们得到了良好的反馈,仅凭简单的关键词就可以寻找自己想要答案。而在他们所钟爱的搜索引擎,如百度,Google等,就是依靠爬虫进行网页的爬取,并为每个词语建立索引,呈现给用户。并且这些网站也希望这些知名的爬虫爬取他们的信息,这对于他们的名声的普及很有帮助。
当今电影也是越来越普及到人们的生活当中,不仅是电影院的好气氛,电影的本身也会带给大家一定的放松和思考。不同于往日,今天的电影更多,内容更丰富,大家在选择观影的情况下更加需要从中进行挑选,从各个角度选择自己更心仪电影。这便需要获取电影的相关信息,将其进行筛选整理和分析。根据不同观影者的需要进行推送,可以提高用户的观影体验,有效的推荐提示也可以增加不同电影平台的观影数以及电影下载量。
1.2 目的和意义
面对众多的电影国内外信息,观影群众难以从电影的某一点去评判电影的好坏,而是需要一个全方位的考察。而爬虫系统就是需要从中爬取最具代表性的,最有价值的信息并保存下来。而这些信息过于庞大和精细,对于普通观众来说并不友好,所以爬虫系统需要对信息进行整理总结,制成表格和各类的可视化图表,给予观影者一个直观、全面的参考,并且可以根据不同的观影者推荐不同类型的电影。此外,通过国内外电影各个方面的差异,映射出中外文化的差异,以及电影的普及程度等。使用爬虫系统不仅提供了便捷的评判电影好坏,还能直观的观察电影各方面的信息。
1.3系统简介
本系统包括三个部分,网络爬虫部分和数据分析部分。大体思路比较清晰明了,简单实用,采用Python的作为编程语言。
第一部分是网络爬虫部分。系统将对于常用的电影网站时光网进行网络爬虫的爬取,得到国内外高票房的优质电影的相对信息,并存入数据库。在此过程中需要解决模拟用户登陆,解决网站反爬机制以及动态页面的处理。
请支付后下载全文,论文总字数:21372字