大数据下的上市公司公告文本关键词挖掘应用技术开题报告
2022-01-02 17:16:25
全文总字数:2728字
1. 研究目的与意义及国内外研究现状
随着信息时代的到来,网络上出现的信息纷繁复杂,信息大爆炸给人们带来很多不便。随着上市公司数量的逐年增加,上市公司发布的信息数量逐步增多。如何在大数据的环境下,能提取自己感兴趣的相关内容,是炒股等人员最关心的问题。说到提取信息,数据挖掘是从人们所累积的信息中发现有意义的相关信息。本次设计的目的是研究在大数据环境下利用数据挖掘技术来实现对上市公司发布信息通过关键词提取的原理和实现方法。让炒股等人员更加容易的查看自己所需求的相关内容。
国内外研究现状
数据挖掘技术是在应用需求下诞生的,也是在应用需求的推动下不断发展的。同时,数据挖掘技术的不断发展也启示和促进新的应用需求产生。数据挖掘技术在这种循环前进中得到了不断的发展和完善。现在,数据挖掘技术已经形成了教委完善的技术体系和设计模型,比如Usama M.Fayyad、Gregory Piatetsky-Shapiro等人定义的数据挖掘处理的九大模型。在美国等西方发达国家,由于互联网的普及,越多越多的人喜欢在网上炒股,互联网普及程度相对较高,各种小搜索引擎层出不穷。国外的发展经验,能够让我们更好的理解股民需求和数据挖掘系统的建立。在我们中国,随着信息大爆炸的到来,数据挖掘技术也在不断的发展,在上市公司信息的数据挖掘方面也有不断的突破。人们选择在网上炒股等,能够更好的处理闲钱,用闲钱赚钱。在这样的大环境下,大数据下上市公司公告信息的数据挖掘技术正在不断的完善。
2. 研究的基本内容
通过研究发现, 主要分为三个部分:
1.下载:这部分是需要把你想要搜索的范围的原始数据从网站上下载下来。(可以通过网络爬虫技术解决)
2.索引:前面搜索下载的是网页全文,里面的html标签是不需要被搜索的,所以要把数据清洗一下,提取出其中的重要内容。文本内容的预处理还需要分词 、去除无意义的停用词等。(建立索引有现成的库:lucene )
3. 实施方案、进度安排及预期效果
一、 实行方案:
本系统采用myeclipse作为开发工具,使用spring、structs开发框架,保证服务端的稳定性。本系统采用c/s架构即客户端/服务器结构。本系统通过网络爬虫技术获取网页信息。
二、进度:
4. 参考文献
[1] 宋佳, 诸云强, 刘润达 . 一种基于lucene改进的全文检索工具包[j]. 计算机工程与应用, 2013, 44(4):172-175.
[2] 吴海明. 基于lucene的上市公司挖掘技术的研究与改进[d].广东:暨南大学, 2016.
[3] 李巍巍. 全文检索引擎工具包lucene的结构与索引原理的研究[j]. 才智, 2014,36(9):11-125