基于爬虫技术的新闻信息提取开题报告
2022-01-16 20:10:57
全文总字数:3002字
1. 研究目的与意义及国内外研究现状
传统的新闻网站往往每天更新的内容都是杂糅在一起的,甚至存在一些不重要的信息,不同的新闻网站,版块分类可能也不尽相同,要查找某条特定的新闻,需要用户在网页进行相应的浏览查找。
以新浪新闻的财经模块为例,既存在对股市行情信息的解读内容,也有投资理财方面的内容介绍,还存在一些干扰用户的广告信息。新闻网站有很多家,往往一条新闻会有很多家媒体的不同的解读,那么用户需要进入不同的网站获取相应的信息,还得花更多的时间排除一些无关性的新闻,效率低下。
如果采用爬虫技术,从多家网站出发,将我们需要的信息爬取出来,并进行分析整合,根据同一关键词,将各家新闻网站的相关链接都放在一起,用户使用这种方式浏览相关新闻大幅度减少在浏览不相关的信息上所花费的事件,而且避免浏览一些广告,极为方便用户进行查阅浏览。
2. 研究的基本内容
1.使用python3语言,运用urllib库requests库发送网页请求
2.对经过javascript处理数据,通过ajax加载的网页,使用借助浏览器的开发者工具具体分析
3.使用tesserocr识别部分需要图片验证码的登陆网站
3. 实施方案、进度安排及预期效果
1.14-1.15 第三方请求库(requests、selenium和aiohttp),解析库(lxml、beautiful soup、pyquery)安装,数据库mysql的安装等准备工作完成
1.16-1.18 http原理、网页的基础知识、爬虫的基本原理、cookies的基本原理学习了解
1.19-1.20 urllib、httplib2、requests基本库的操作和使用,并实际抓取猫耳电影排行作为实践
4. 参考文献
[1]shi z , shi m , lin w . the implementation of crawling news page based on incremental web crawler[c]// 2016 4th intl. conf. on applied computing and information technology (acit), 3rd intl. conf. on computational science/intelligence and applied informatics (csii), and 1st intl. conf. on big data, cloud computing, data science engineering (bcd). ieee computer society, 2016.
[2]mengmeng lu, shuhong wen, yan xiao, pei tian, fang wang, 'the design and implementation of configurable news collection system based on web crawler', computer and communications (iccc) 2017 3rd ieee international conference on, pp. 2812-2816, 2017.
[3]郭丽蓉.基于python的网络爬虫程序设计[j].电子技术与软件工程,2017(23):248-249.