基于Python的美团网数据挖掘与分析毕业论文
2021-04-05 00:33:09
摘 要
大数据时代的到来使得数据获取和处理需求快速增长,基于Python的网络爬虫技术已成为获取数据工具的研究热点之一。美团网作为一家致力于提高生活服务的平台,以其出色的网络经营模式和良好的口碑,受到越来越多消费者的认同。面对类型众多的的商家,若能快速选择符合消费者需要的优质商家,可以使消费最大合理化,因此对美团网的数据挖掘和分析具有重要意义。本文在系统需求分析的基础上,基于Python爬虫技术和Django框架设计并实现了美团网数据挖掘和分析系统。本系统的特色主要在于,爬虫和数据库设计使得系统能够实时更新目标数据,确保了数据的可靠性和完整性;分区索引各城市的美团商家信息,使信息查找更加方便快捷。
本文的主要工作如下:
(1)完成了对美团网数据挖掘和分析系统的需求分析,并在需求分析的基础上设计了系统的总体结构和各功能模块。
(2)完成了基于Python的爬虫程序设计和基于MySQL的数据库设计,实现了数据的获取和存储。
(3)实现了数据可视化分析,将数据处理为直观的柱状图形式。
(4)通过Django框架的使用完成了数据展示界面的设计,为用户提供了一个可交互的Web平台。
关键词:网络爬虫;数据挖掘;数据分析;数据展示;Django框架
Abstract
With the arrival of the era of big data, the demand for data acquisition and processing is growing rapidly. Python-based network crawler technology has become one of the research hotspots of data acquisition tools. As a platform devoted to improving life services, Meituan has been recognized by more and more consumers with its excellent network management model and good reputation. Faced with a large number of types of businesses, if we can quickly select high-quality businesses that meet the needs of consumers, we can maximize the rationalization of consumption. Therefore, it is of great significance to data mining and analysis of Meituan. On the basis of system requirement analysis, this paper designs and implements the data mining and analysis system of American League Network based on Python crawler technology and Django framework. The main features of this system are that the crawler and database design enable the system to update the target data in real time, ensure the reliability and integrity of the data; partition index the information of the companies in each city, make the information search more convenient and fast.
The main work of this paper is as follows:
(1) Completed the requirement analysis of data mining and analysis system of Meituan Network, and designed the overall structure and functional modules of the system on the basis of requirement analysis.
(2) The crawler program design based on Python and the database design based on MySQL are completed, and the data acquisition and storage are realized.
(3) Data visualization analysis is realized, and data processing is transformed into intuitive columnar graphics.
(4) The design of data display interface is completed by using Django framework, which provides an interactive Web platform for users.
Key Words:crawler; data mining; data analysis; data display; Django framework
目 录
第1章 绪 论 1
1.1 课题研究的目的和意义 1
1.2 国内外发展与研究现状 2
1.3 论文的主要工作及章节安排 3
第2章 系统总体框架与各功能模块实现流程设计 4
2.1 系统需求分析 4
2.2 系统总体设计 5
2.3 系统模块设计 8
2.3.1 数据获取模块设计 8
2.3.2 数据存储模块设计 9
2.3.3 后台数据展示模块设计 9
2.3.4 系统前端设计 10
2.4 本章小结 10
第3章 爬虫程序设计与数据库实现 11
3.1 基于Python的爬虫程序设计 11
3.1.1 设置头部信息 11
3.1.2 获取目标网站的url链接 11
3.1.3 网页解析 12
3.2 基于MySQL的数据库实现 13
3.3 本章小结 14
第4章 基于Django框架的数据展示模块实现 15
4.1 Django后台展示数据模块实现 15
4.1.1 配置文件 15
4.1.2 urls拦截服务 16
4.1.3 Views视图处理服务 16
4.1.4 Models与数据库交互服务 18
4.2 前端模块实现 18
4.2.1 搜索页面设计 18
4.2.2 推荐数据展示设计 19
4.2.3 数据分析展示设计 20
4.3 本章小结 20
第5章 美团网数据挖掘与分析系统功能测试 21
5.1 数据获取结果验证 21
5.2 Django后台操作验证 21
5.3 测试用例详情 24
5.4 本章小结 25
第6章 总结与展望 26
6.1 论文工作总结 26
6.2 进一步研究展望 27
参考文献 28
致 谢 29
第1章 绪 论
1.1 课题研究的目的和意义
随着信息化时代的高速发展,大数据研究体现了越来越重要的地位,数据源为各项工作、研究提供了样本数据。因此,数据获取和数据分析方法成为了热门的研究方向,从这方面来看,数据挖掘的魅力也体现了出来。
本课题的主要目的是完成美团网数据挖掘和分析系统的设计。该系统的功能主要有自动抓取美团网美食类的商家信息、对数据进行可视化处理、对评分进行排序处理、提高用户交互Web平台。通过设计一个基于Python的网络爬虫程序,来采集美团网美食板块的商家信息,包括名称、地址、评分和人均价。并对采集到的数据进行存储和分析处理,以图表形式对数据进行展示。基于Django框架设计一个本地网站,可获取存储在MySQL数据库中数据并将其展示到网页上[11,14]。其具体功能是在搜索栏搜索一个城市名,网页上就会分区展示该城市所有美食商家的数据分析结果,并对评分前20的商家进行推荐。
在获取数据并对数据进行一系列处理之后,还要将分析结果以直观可读形式展现给用户,基于Python的Django框架的使用可以很好地实现这一功能,用户可以在Django开发的Web网页上直接获取特定城市的实时商家信息,推荐优质商家功能也为消费者提供很大的便利。以该实例展示网络爬虫和数据分析过程,更有利于读者理解爬虫的含义及运用,也能展现出大数据研究为当今社会带来的便利之处。