新闻网页的自动识别和过滤文献综述

2021-02-26 11:16:53

1．目的及意义

在互联网环境下，各种形形色色、内容稂莠不齐的信息资源漫散在里面，特别是对于新闻。当前互联网上的网页数量迅速膨胀，其中包含了大量的新闻网页，为了快速而准确地找到所需要的信息，新闻网页的自动识别和过滤已经成为研究热点。新闻网页的自动识别和过滤主要针对web上的网页进行识别和过滤，从而快速准确地识别新闻类网页，而后提取出新闻的相关信息，比如新闻标题和新闻内容。

当前，国内外在新闻网页的自动识别和过滤这一块领域投入不少的研究成本。无论是Facebook公司运用人工智能(AI)来对新闻网页的内容监管，从而甄别不良内容，还是国内相关新闻软件过滤非新闻网页，可以看出，新闻网页的自动识别和过滤是值得研究的领域。

对于新闻网页的自动识别和过滤的研究，对于过滤网页导航、广告、相关链接等噪音有重要作用，对网页内容的提取，有助于对网页内容的控制，用于过滤不健康内容，营造绿色的上网环境。

{title}

2. 研究的基本内容与方案

{title}

一、基本内容

1. 了解神经网络、深度学习、机器学习的相关知识；

2. 研究神经网络的学习训练；

3. 学习神经网络开源框架TensorFlow；

4. 分析新闻网页的URL、结果属性、内容属性等。

5. 利用新闻网页对神经网络进行训练，从而达到识别的能力。

二、技术方案

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码