基于大数据的分布式互联网航运交通数据采集系统任务书
2020-02-18 15:45:26
1. 毕业设计(论文)主要内容:
数据采集是大数据系统的重要组成部分,它涉及到海量数据的抓取、存储、清洗和预处理等工作。本毕业设计要求在学习大数据、数据采集等技术的基础上,基于Python语言,利用大数据平台,针对航运交通大数据系统的应用需求,开发一个基于大数据的分布式互联网航运交通数据采集系统。
2. 毕业设计(论文)主要任务及要求
1.阐述大数据、数字采集、数据存储、数据抓取的基本原理和方法,论述选题的国内外发展现况和研究意义,充分查阅国内外的相关研究成果,分析和研究现有同类系统的工作原理、特点和所存在的问题;
2.在此基础上,针对航运交通大数据系统的应用需求,基于python 3.x环境,开发一个基于大数据的分布式互联网航运交通数据采集系统。软件主要功能包括:
a) 设计并实现大数据存储系统;
3. 毕业设计(论文)完成任务的计划与安排
第1-2周:完成课题调研、文献阅读和外文翻译,收集相关资料,完成开题报告,进行小组内选题答辩,修改定稿开题报告,并上传开题报告到教务网。
第3-8周:熟悉相关理论知识、设计工具和计算机语言。完成系统初步设计,完成程序主要模块、算法的设计、编程和相关设计图纸的绘制。
第9-12周:完成系统编程设计及调试、测试和性能分析。
4. 主要参考文献
[1] 李优. 基于hadoop的分布式网络爬虫设计与实现[d].西北大学,2018.
[2] 樊宇豪. 基于scrapy的分布式网络爬虫系统设计与实现[d].电子科技大学,2018.
[3]h. wang, c. li, l. zhang and m. shi, anti-crawler strategy and distributedcrawler based on hadoop[c/ol],proceedings of 2018 ieee 3rd internationalconference on big data analysis (icbda): shanghai, 2018:227-231. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=amp;arnumber=8367682amp;isnumber=8367453.doi:10.1109/icbda.2018.8367682