基于博容舆情分析的Python爬虫系统的设计与应用开题报告

2020-08-13 20:43:36

1. 研究目的与意义（文献综述）

互联网是一个非常庞大的非结构化的数据库，如何将数据有效地检索并组织呈现出来有着巨大的应用前景。搜索引擎有着为人们检索信息的功能，但是，这些通用性搜索引擎一般存在着一定的局限性。不同的领域、不同背景的用户往往有着不同的检索目的和需求，通用搜索引擎所返回的结果包含着大量用户不需要的信息，为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

python本身被设计为可扩充的。并非所有的特性和功能都集成到语言核心。python提供了丰富的api和工具，以便程序员能够轻松地使用c语言、c 、cython来编写扩充模块。python编译器本身也可以被集成到其它需要脚本语言的程序内。因此，很多人还把python作为一种“胶水语言”（glue language）使用。使用python将其他语言编写的程序进行集成和封装。

实现一个基于python的网络爬虫，抓取某个网络公共事件相关的博文及评论，将抓取到的信息分类保存进数据库中。能给博客和评论打上标签（重点关注，无关数据，已反馈等等）加备注，还能对博客排重，一个博客只显示一条数据，不会重复显。可以分析出博客及评论的相关信息及规律。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

一、基本内容

1. 了解教师与学生对系统的基本需求；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1~3周查阅文献；分析题目研究现状，

第4周阅读文献、撰写开题报告；

第5周确定该系统用户（老师、学生）的需求，并挖掘分析；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] 刘世涛等. 简析搜索引擎中网络爬虫的搜索策略［n］. 阜阳师范学院学报自然科学版 2006 09 p60~63

[2] 李学勇基于网络的信息获取技术浅析［j］.武汉：武汉理工大学，2009年.

[3] 高克宁等.支持web信息分类的高性能蜘蛛程序[j]. 小型微型计算机系统，2006 p1309~1312

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码