互联网金融新闻的采集与处理研究毕业论文
2021-03-12 00:29:23
摘 要
随着网络技术的发展,互联网上的新闻资源也越来越多,每个网页中包含很多无用的链接,导致对于信息检索越来越困难,本文研究的重点就是如何可以在一个金融新闻网站上高效的完成检索新闻的功能。
对于网络金融新闻的采集和处理大致可以分为:互联网金融新闻的采集,和对新闻的处理研究。对于网络金融新闻的采集我们选用的是普通网络爬虫,从开始的URL采取宽度优先的爬取策略,遍历整个Web站点,将爬取的网页在进行解析,提取有用的文本信息存储到mysql数据库当中。
新闻的处理就是实现对文本信息的预处理,这里我们主要研究对下载到数据库当中的金融新闻进行分词处理和过滤停用词。文本分词技术选用的python中自带模块的jieba分词,是基于前缀字典和统计的高效词图扫描。当文本信息全部分词完成后,有些对文章理解没有意义的词会占用存储空间,再通过停用词词典,滤出无意义的词即可达到文本的预处理效果。鉴于计算机不能处理文本模型,要实现后面的聚类还要是实现文本向量化。
关键词:网络爬虫;网页解析;分词;过滤停用词;数据向量化
Abstract
With the development of network technology, Internet news resources become more and more, each web page contains a lot of useless links, leading to more and more difficult for information retrieval.This paper is studying how to retrieval the financial news in a news site and in efficient way.
The collection and processing of online financial news can be divided into two types: the collection of online financial news and the processing of news. For network financial news collection ,we choose ordinary Web crawler,.From the beginning of the URL to crawl strategy of breadth-first, the crawler will traverse the entire Web site, crawl Web pages in parsing, and extract useful text information stored in the mysql database.
The processing of news is preprocessing text information, and here we mainly study how to financial news word segmentation and filtering stop words. The lexba participle of the native module in python is based on prefixed dictionary and statistical efficient word graph scanning. When a text message after completion of all part of the word, some understanding article meaningless word will take up the storage space, and then stop words in the dictionaries, filter out text preprocessing effect could be achieved with meaningless words.
Key Words:crawler;Breadth First Search;web analysis;text segmentation;stop words
目 录
第1章 绪论 1
1.1 引言 1
1.2 互联网金融新闻的采集与研究的研究背景和意义 2
1.3国内外研究现状分析 3
1.3.1网络金融信息采集现状 3
1.3.2互联网金融新闻处理研究现状 4
1.4论文章节安排 4
第2章 互联网金融新闻采集与处理研究理论 5
2.1概述 5
2.2网络爬虫技术 5
2.2.1通用网络爬虫 5
2.2.2聚集网络爬虫 6
2.3爬行策略 7
2.3.1深度优先搜索策略 7
2.3.2广度优先搜索策略 8
2.3.3 IP地址搜索策略 8
2.3.4专业检索引擎的爬虫策略 8
2.4文章分词 9
2.5过滤停用词 10
2.6词袋模型 10
2.6.1 向量化和TF-IDF 11
2.6.2 Hash Trick 11
第3章 系统的设计和实现 12
3.1系统的总体设计 12
3.2网络爬虫模块 13
3.2.1 URL管理器 14
3.2.2网页下载器 15
3.2.3网页解析器 16
3.3文本处理 18
3.3.1 文本信息分词 19
3.3.2引入停用词 19
3.3.3 文本向量化 20
第4章 爬虫系统实现 21
4.1测试过程 21
4.2 测试结果分析 21
第5章 总结和展望 26
5.1总结 26
5.2展望 26
参考文献 28
致谢 29
第1章 绪论
1.1 引言
随着21世纪的到来,互联网技术发展势头更加迅猛,据中国互联网网络信息中心发布的一份报告显示我国的互联网普及率呈现不断上涨趋势。其中手机上网的用户是拉动中国总体网名数量增长的主要动力,仅半年新增量高达2.77亿人,增幅高达18.7%。目前我国约有279万个网站,平均每万人拥有21个网站[1]。随着互联网的不断普及,互联网金融,网络购物,网上电子银行等各种互联网商务发展也是越来越迅猛。而中国做为全球互联网市场发展较迅猛的国家,国外的银行发现其中巨大的经济市场,同时也面临极大的挑战。
由于互联网的使用人数非常多,互联网金融新闻也是多种多样形形色色。新媒体的核心是互联网基本方式是数字化为当今的社会构筑了一个新的新闻传播环境。由此可以看出网络新闻资源具有以下几大特点:
- 更新迅速,传播快。网络新闻资源的存储是数字化的存储,将原始的信息转化成为数字信息,通过网络之间传播再其他的客户端还原成原始的信息,对于数字化的实现,信息的传播速度就大大加快[2]。现在的互联网越来越普及,有关金融的媒体也是越来越多,不同媒体每天可能发布很多金融信息,利用网络的便捷性,对于信息的更新速度也是越来越快,只需要有网络有信息来源,受其他的因素影响较小。
- 内容多元化,信息量大。网络上的资源包含各个方面。具有数目庞大,种类繁多,类型丰富,时空跨度大,内容好坏参差不齐等特点。即便都是金融信息,不同媒体的关注点,对于同一事件的见解也是千差万别,网络受到的限制较小,存储的容量较大,人人可以发表看法,这就造成网络上的信息内容很多元。
- 网络新闻影响范围广,可以跨越地域的限制。互联网真正实现将地球变成了一个地球村,世界有多大,网络的发展范围就有多大,网络新闻的传播空间就有多大。比如对于《长江日报》以前读者获取的唯一途径就是每天在报亭购买或是进行订阅,海外的读者获取其新闻信息很困难,可能要等待很久才可能拿到报纸,但是现在来说,长江日报一旦更新全世界的读者都可以在第一时间获取新闻信息,且新闻还具备时效性。网络新闻真正实现了在不同地区,不同文化之间传播。
- 具备良好的交互性。网络是个开放的资源,为人们之间的交流提供了极大的便捷。以前新闻主要就是作者在某个报刊,期刊上发表文章读者想要解决疑惑或是想和作者有更深一步的交流唯一的方式就是写信,和作者沟通极为不方便,网络新闻一经发布,有任何问题或是想法都可以在文章下评论留言,或是给作者私信,极大的方便了读者和作者间相互交流。
从网络新闻资源的特点就可以看出,实现一个检索系统的必要性。在这个信息大爆炸的时代,网络上的金融新闻数量相当庞大,内容相当杂乱无章,如何才能实现对金融新闻信息有效的归类检索?如何才能实现屏蔽掉无用金融信息?就需要这样一个搜索引擎对于网络金融新闻进行采集处理满足人们日益增长的要求。
1.2 互联网金融新闻的采集与研究的研究背景和意义
每天有大量的互联网金融新闻在网络上发布,内容参差不齐。很多时候大家在网页当中并不能完全实现自己想要搜索的内容。有需求就有新的发明,搜索引擎也就诞生了。一般来说,搜索引擎可以对很多的网页进行检索操作,实现在输入关键词的情况下完成对应的索引,并返回对应的文章。由此可见,搜索引擎对于检索网页具有巨大的作用。对于实现互联网金融新闻的采集研究系统就是要实现一个搜索引擎,寻找满足条件的文章,返回到客户端。
从广义来说搜索引擎是指那些可以在实现检索功能的工具。通俗的说通过用户发出检索的请求,搜索引擎做出快速准确回应。从狭义来说,现在的搜索引擎特指具备检索功能的软件,无论是自动进行还是人为操作要实现采集互联网的地址,下载分析网页内容抽取有用信息放在在数据库当中,同时又对文章进行分词排序形成一个正排序或是倒排序的数据库,当用户输入关键字时要做出快速应答[3]。