网络数据采集与分析程序的设计毕业论文
2022-01-13 20:53:11
论文总字数:29196字
摘 要
随着互联网的飞速发展,人类社会进入了信息时代。如何有效地从网络获取信息并加以利用成为了一个现实的课题。本文以天气信息为对象展开研究,共分为两大部分,其一是论述如何从网络采集数据,其二是论述如何对数据加以分析,从而挖掘其价值。
在网络数据采集部分,本文利用简单网络爬虫以及调用API接口两种方式完成数据的获取,并利用获取的数据实现了三大天气预报功能:实时天气查询、温度变化趋势查询以及天气信息的微信推送功能。
在数据分析部分,本文以历史天气信息为研究对象,尝试了通过建模对未来气温状况进行预测。首先,利用主成分分析法对气象因素进行降维处理,得到了三个主成分因子以及对应的主成分系数矩阵。然后将降维后的主成分因子作为自变量,气温作为因变量进行多元线性回归分析,得到了一个回归方程,完成了预测模型的建立。
在预测时,只需将当日相应的气象因素同主成分系数矩阵相乘,得到主成分因子,而后将主成分因子代入到回归方程中,即可预测下一天的气温。
关键词:爬虫 API接口 主成分分析 多元线性回归分析 预测
Acquisition and analysis of network data
Abstract
With the rapid development of the Internet, human society has entered the information age. How to effectively obtain information from the Internet and make use of it has become a realistic subject. This paper takes weather information as the object to conduct research, which is divided into two parts. One is to discuss how to collect data from the network; the other is to discuss how to analyze the data so as to explore its value.
In the part of network data collection, this paper uses simple web crawler and API to complete data acquisition, and uses the acquired data to achieve three major weather forecasting functions: real-time weather query, temperature change trend query and WeChat push function of weather information.
In the part of data analysis, this paper takes historical weather information as the research object and tries to predict the future temperature by modeling. Firstly, three principal component factors and their corresponding principal component coefficient matrix are obtained by using principal component analysis (PCA) to reduce dimensions of meteorological factors. Then, the principal component factors were taken as independent variables and air temperature as a dependent variable for multiple linear regression analysis, and a regression equation was obtained, completing the establishment of the prediction model.
In the prediction, it only needs to multiply the corresponding meteorological factors of the day with the principal component coefficient matrix to get the principal component factors, and then substitute the principal component factors into the regression equation to predict the temperature of the next day.
Key Words: web crawler; API; PCA; multiple linear regression analysis; predict
目录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景及其意义 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.1.3 研究方法 2
1.2 论文组成 2
1.2.1 天气预报信息的获取 2
1.2.2 三大功能的实现 2
1.2.3 对历史天气数据的建模分析 3
1.3 相关软件说明 3
第二章 网络信息获取 4
2.1 信息获取的爬虫实现 4
2.1.1 requests库简介及信息获取的准备工作 4
2.1.2 利用爬虫进行信息获取 4
2.2 信息获取的API实现 5
2.2.1 各个网站提供的天气预报API 5
2.2.2 利用API进行信息获取 6
第三章 天气预报系统的功能实现 8
3.1 PyQt的使用 8
3.1.1 PyQt常用组件介绍 8
3.1.2 PyQt的信号槽机制 8
3.1.3 PyQt的界面文件与Python文件之间的转换 8
3.2 天气实时查询功能 9
3.2.1 GUI设计 9
3.2.2 函数设计 10
3.3 未来温度变化趋势查询 11
3.3.1 GUI设计 11
3.3.2 函数设计 11
3.4 天气预报信息的微信推送 13
3.4.1 wxpy库简介 14
3.4.2 GUI设计 14
3.4.3 函数设计 14
第四章 历史天气数据的建模分析 17
4.1 气象数据的主成分分析 17
4.1.1 主成分分析法 17
4.1.2 气象数据处理 19
4.2 对气温的多元线性回归预测 25
4.2.1 多元线性回归分析 26
4.2.2 利用模型进行预测 28
4.3 GUI界面设计 29
4.3.1 算法总结 29
4.3.2 GUI设计与实现 29
第五章 总结与展望 31
5.1 工作总结 31
5.2 研究展望 31
参考文献 33
致谢 35
第一章 绪论
1.1 研究背景及其意义
1.1.1 研究背景
随着网络的不断发展,人类社会进入了信息的时代。人们每天都会被海量的信息所包围,据相关组织的统计,全球一天之内更新的数据量可以供一个人日夜不停地阅读几十年,可想而知当今世界信息化的发展速度是如何的恐怖。一个人不可能同时掌握世界上所有产生的信息,那么如何有效地获取信息,以及如何筛选、处理有用的信息就显得尤为重要。人最宝贵的就是时间,毫无头绪地、毫无目的地获取数据,迷失在信息地海洋之中无疑是对生命的一种浪费与亵渎。
本文将根据当前主要的一些信息获取方法,结合特定的目的来对信息的获取以及分析做一次“演练”,使读者能够了解如何快速地从网络上获取想要的信息。以此节约我们宝贵的时间。
1.1.2 研究意义
本文拟对天气数据进行网络获取以及分析。天气信息在我们日常能够接触的信息中属于较为重要的信息。我们每天都需要规划自己的行程,不论是出差或者是出游,不可避免地需要及时地获取天气信息,以充分地对自己的行程进行规划。对天气信息的掌握情况深刻地影响着我们的生活效率。没有人希望在错误的时间身处错误的地点,比如在雨中手足无措。
请支付后下载全文,论文总字数:29196字