基于网络爬虫的宁房产信息检索与分析平台的构建
2022-12-10 10:35:08
论文总字数:17451字
摘 要
随着互联网信息激增,房地产信息越来越多,人们需要从大量的房产信息中寻找到适合自己需要的信息,信息增长的同时,获得这些信息的难度也越来越大。由于传统的房地产信息只是单纯的营销信息,没有考虑到用户自身的需求,只能够提供简单的信息所有。对不同的用户返回一样的结果,这样已经无法满足用户个性化的需求。本文针对当前房产信息中存在的问题,设计并开发了基于网络爬虫的宁房产信息检索与分析平台。
本文首先调研了国内外房地产信息系统的研究文献,然后搜集当前数据量较大的房产信息门户网站,并将信息门户网站的URL进行统计,然后设计网络爬虫对门户网站的信息进行爬取,构建了宁房产信息的数据库。为了更好地同用户进行交互,更好地使数据可视化,更加满足用户的需求,本次设计重点开发了网络爬虫设计,页面系统设计,房产数据分析,房产信息预测,用户交互这五大模块。
本次设计基于Python3.6语言,以Pycharm作为开发工具,采用Scrapy,Flask这两个高效便捷的开发框架进行开发,在数据可视化的过程中,采用了echarts将数据更好地展现给用户。
关键词: 互联网;网络爬虫;Python;数据可视化
Abstract
With the rapid increase of Internet information and real estate information, people need to find information that suits their needs from a large amount of real estate information. As the information grows, it is more and more difficult to obtain this information. Since traditional real estate information is only pure marketing information, it does not take into account the needs of users and can only provide simple information. Return the same results to different users, which can no longer meet the personalized needs of users. Aiming at the current problems in real estate information, this paper designs and develops a Ning real estate information retrieval and analysis platform based on web crawlers.
This article first investigates the research literature of real estate information systems at home and abroad, and then collects current real estate information portal websites with a large amount of data, and calculates the URL of the information portal website, and then designs a web crawler to crawl the information of the portal website and construct The database of Ning real estate information. In order to better interact with users, better visualize data, and better meet user needs, this design focuses on the development of five modules: web crawler design, page system design, real estate data analysis, real estate information prediction, and user interaction.
This design is based on the Python3.6 language, using Pycharm as the development tool, using two efficient and convenient development frameworks, scrapy and Flask, for development. In the process of data visualization, echarts is used to better display the data to users.
Keywords: Internet, web crawler, Python, data visualization
目录
摘要 I
Abstract II
第一章 绪论 1
1.1课题研究背景与意义 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.2研究现状 2
1.3论文组织结构 2
1.4 本章小结 3
第二章 开发环境与相关技术 4
2.1 系统开发软件和运行环境 4
2.1.1 开发环境与工具 4
2.1.2 开发工具简介 4
2.2 开发相关技术 4
2.2.1 开发技术列举 4
2.2.2 开发技术介绍 4
2.3 本章小结 5
第三章 宁房产信息检索与分析平台需求分析 6
3.1 需求分析过程 6
3.2 系统的功能需求分析 6
3.2.1 设计人员用例分析 7
3.2.2 用户用例分析 8
3.2.3 算法人员用例分析 8
3.3 系统主要业务流程分析 9
3.3.1 房产信息爬取流程 9
3.3.2 房产信息预测流程 9
3.3.3 用户交互流程 10
3.4 系统性能需求分析 11
3.5 本章小结 11
第四章 宁房产信息检索与分析平台设计 12
4.1 网络爬虫部分设计 12
4.1.1 网络爬虫设计思路 12
4.1.2 网络爬虫具体设计方案 12
4.2 宁房产信息检索与分析系统设计 13
4.2.1 整体系统结构设计 13
4.2.2 房价预测模块设计 14
4.3 本章小结 14
第五章 宁房产信息检索与分析平台实现 15
5.1 网络爬虫模块实现 15
5.2 系统页面实现 16
5.3 房产数据分析模块实现 17
5.4 房产预测推荐模块实现 18
5.5 房价分析模块实现 19
5.6 房价预测功能模块实现 20
5.7 本章小结 21
第六章 系统测试 22
6.1 软件测试 22
6.1.1 软件测试的目的 22
6.1.2 软件测试的方法 22
6.2 性能测试 25
6.3 本章小结 25
第七章 总结与展望 26
7.1 本文总结 26
7.2 未来工作的展望 26
致谢 27
参考文献 28
第一章 绪论
1.1课题研究背景与意义
1.1.1 研究背景
当前各种信息技术等正在不断发展,人们的生活逐渐通过信息的方式联系在一起,通过互联网收集自己想要搜索的信息,例如在网络上进行信息的咨询、观看电影、线上学习、线上购物等等,使得信息获取越来越便利,生活也变得越来越便捷,而现如今互联网存储各类信息的数量也在不断增加,每个互联网用户海量的信息都被存储在其中,因此在获取不同人的信息途径也在不断地增多[1]。
越来越多的资料信息被放在互联网上,获取各种信息资源的途径不断增多,带来好处的同时,也存在着各种隐藏的问题,如:数据过多使得信息的利用率降低,信息难以进行有效地分类,使得在大量信息中搜寻想要的信息时,工作量增多,甚至会将一些无效的信息筛选在其中,最终导致信息的质量难以保证。并且在用户获取某一信息后,无法确定此信息对自己是否有用处,还需要通过相同的方式继续找自己需要的信息,再自己进行对比分析,无疑浪费了时间精力,而且用户自己本身所进行分析的内容大多带入了主观因素,无法客观且直观的看出信息之间的差距,无法做出最精准的判断。
剩余内容已隐藏,请支付后下载全文,论文总字数:17451字