基于机器学习的新闻网页识别方法研究与实现文献综述
2020-04-14 20:01:46
随着互联网的发展,网页已经彻底融入人们的生活,网页的种类和数量都不断增加,现在已经到了海量的地步。Web上的海量数据蕴含着很多有价值的信息。为了获得并分析利用这些有价值的信息,通常首先需要对Web网页进行识别,然后才能获取精确有用的结构化数据,以及对这些结构化数据执行深度分析处理。然而,Web网页的多样性以及各种类型Web数据的异构性使得从Web中有效地获取精确有用的数据成为一个较大的技术难题。因此,必须在抽取数据之前对各种Web网页进行识别、分类,针对不同的网页,比如新闻网页以及非新闻网页,对分类以后的网页采取不同的方法对数据进行抽取和处理。网页识别方法的研究主要分三个过程,即网页信息的采集,数据集的制作,非新闻网页的识别。
首先是网页采集,现有的网页采集方法主要采用爬虫技术,使用一个Scrapy框架,Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持,可以从网络上获取网页源码;其次对网页进行解析,获取新闻标题和正文部分内容;最后对提取的文本进行按需处理。但随着Web技术的发展和网站商业化运作越来越严重,网页中噪声信息空前加大,使得很多方法己经不再适用于当今网页正文信息的提取,为网页文本信息的智能化提取带来了新的挑战。例如在新闻文本采集过程中,一般只关注包含有用信息的网页。非新闻网页包含网站引导页面、新闻列表页、部分含有多图且无正文的网页页面或者多图有少部分对图片描述文字的页面和多数问答类型的页面等等。这类网页的文本特征很弱,提取出来的正文信息也不具有新闻价值,反而会造成高提取错误率,因此在新闻文本采集过程中进行新闻网页自识别的研究具有重要的意义.现有的基于用户交互的方法主要依赖用户交互,这种方法既没有利用自动网页数据抽取技术来减少用户交互负担从而提高规则生成效率,也没有充分利用机器学习方法来提高规则鲁棒性。基于监督学习的可以生成比较鲁棒的规则。{title}2. 研究的基本内容与方案
{title}本毕业设计研究的基本内容是如何通过机器学习自觉识别新闻网页,从新闻网页中提取有用信息的目的,实现一种新闻网页识别方式。本次毕业设计的具体目标是,操作者在电脑前不操作电脑,电脑能自动对数据集进行识别。
在具体毕业设计进行过程中,我打算按照以下流程进行相关知识的学习和毕业设计的实施。
(1)Python基础学习:由于要对数据集进行制作,网页抓取必不可少,比较常用的爬虫框架就是基于Python的scrapy框架,所以Python学习必不可少。
(2)Scrapy框架的学习:Scrapy框架是一个很常用的爬虫框架,提供了提供了多种类型爬虫的基类,在制作数据集的过程中一定会用到。
(3)采集腾讯新闻,凤凰新闻等常见新闻门户网站的网页信息:想要对开发出的进行测试,就需要有一定的数据集,通过爬虫获得一些常见新闻门户网站的网页信息,这是制作数据集的基础。
(4)搜集相关资料:之前没有尝试过制作数据集,所以必须要搜集有关的资料。
(5)制作合适的数据集:制作合适的数据集以适用于日后的测试。
(6)网页的识别:这是本次毕业设计的关键,首先建立合适的模型,实现对非新闻网站的识别。
(7)识别结果的测试:对数据集进行识别,检查成功率。