网络数据采集与分析程序的设计任务书
2020-04-17 20:28:08
1. 毕业设计(论文)的内容和要求
”网络数据采集”是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。
目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成;随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。
人们一般通过以上技术将海量信息和数据采集回后,进行分拣和二次加工,实现网络数据价值与利益更大化、更专业化的目的。
2. 参考文献
1.夏敏捷, 徐飞, 夏冰, et al. The Design and Implementation of Campus Web Search Engine[J]. Journal of Zhongyuan University of Technology, 2011, 163:333-339. 2.孙立伟, 何国辉, 吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术, 2010, 06(15):4112-4115. 3.徐远超, 刘江华, 刘丽珍,等. 基于Web的网络爬虫的设计与实现[J]. 微计算机信息, 2007, 23(21):119-121. 4.李志义. 网络爬虫的优化策略探略[J]. 现代情报, 2011, 31(10):31-35. 5.刘淑梅, 夏亮, 许南山. 主题搜索引擎网络爬虫搜索策略的研究与实现[J]. 计算机系统应用, 2010, 19(3):49-52. 6.郑力明, 易平. 基于HTMLParser信息提取的网络爬虫设计[J]. 微计算机信息, 2009, 25(15):123-124. 7.赵茉莉. 网络爬虫系统的研究与实现[D]. 电子科技大学, 2013. 8.肖毅, 张林, 聂笑一. 基于WEB挖掘的网络爬虫设计与实现[J]. 计算机系统应用, 2013, 22(9):60-63. 9.张亮. 基于HTMLParser和HttpClient的网络爬虫原理与实现[J]. 电脑编程技巧与维护, 2011(20):94-94. 10.基于分布式计算的网络爬虫技术研究[D]. 大连海事大学, 2011.
3. 毕业设计(论文)进程安排
起讫日期 设计(论文)各阶段工作内容 备 注 2018.12.16~2019.02.25 学习毕业设计相关文件及规章制度,理解毕业设计题目的含义及实现思想,完成英文文献翻译。
2019.02.26~2019.03.25 学习论文撰写规范,查阅资料,根据任务书要求,撰写开题报告及开题。
2019.03.26~2019.04.08 了解并掌握网络爬虫技术的原理与实现方法。