新闻网页的自动识别和过滤开题报告
2020-08-13 20:43:54
1. 研究目的与意义(文献综述)
在互联网环境下,各种形形色色、内容稂莠不齐的信息资源漫散在里面,特别是对于新闻。当前 互联网上的网页数量迅速膨胀,其中包含了大量的新闻网页,为了快速而准确地找到所需要的信息,新闻网页的自动识别和过滤已经成为研究热点。新闻网页的自动识别和过滤主要针对web上的网页进行识别和过滤,从而快速准确地识别新闻类网页,而后提取出新闻的相关信息,比如新闻标题和新闻内容。
当前,国内外在新闻网页的自动识别和过滤这一块领域投入不少的研究成本。无论是facebook公司运用人工智能(ai)来对新闻网页的内容监管,从而甄别不良内容,还是国内相关新闻软件过滤非新闻网页,可以看出,新闻网页的自动识别和过滤是值得研究的领域。
对于新闻网页的自动识别和过滤的研究,对于过滤网页导航、广告、相关链接等噪音有重要作用,对网页内容的提取,有助于对网页内容的控制,用于过滤不健康内容,营造绿色的上网环境。
2. 研究的基本内容与方案
一、基本内容
1. 了解神经网络、深度学习、机器学习的相关知识;
2. 研究神经网络的学习训练;
3. 研究计划与安排
第1~3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5~7周 学习了解人工神经网络的系统知识;
4. 参考文献(12篇以上)
[1] 黄臻臻,吴扬扬。中文网页体裁分类特征项的权衡值调整策略[j]广西师范大学学报:自然科学版,2007,25(2)
[2]王清翔,仲婷,潘金贵。基于svm的日文网页分类[j].广西师范大学学报:自然科学版,2007
[3] 谢科,张辉,陈鹏等。文本分类系统关键技术[j]。广西师范大学学报:自然科学版,2007