随机森林算法在股票优选中的应用毕业论文
2020-04-12 08:47:29
摘 要
本文选定了同一类型的股票数据, 运用随机森林算法对数据进行分类处理,选出这类股票中的优质股票,选择优资股票是股票投资中的关键抉择部分,是正确投资的必要选择,所谓的优质股票指的是股市中投资回报高,抗风险能力强,成长性好的优良股票。而股票的价格受到诸多因素的影响,表现出“毫无规律变化”的随机游动特性,因此选择其中的优质股票的难度比较大。在股票优化和选择问题中,主要可以归为两方面:影响价格的维度选择,即多个维度指标体系的决定和选择模型分类算法的确定,本文选择随机森林算法,解决股票投资中选择优质股票的实际问题。选定计算机应用这一类型的股票,选取其中每个股票多个不同方面数据,并借助SPSS软件对收集的数据进行预处理。对随机森林算法进行描述,该算法的产生与原理,以及算法程序的实现,并对算法进行评价总结。最后对自己实现的使用随机森林算法在股票优化结果的分析与评价。
论文主要研究了随机森林算法产生与算法原理,以及随机森林算法程序的实现,并对算法进行评价总结。最后对自己实现的使用随机森林算法在股票优化结果的分析与评价。
研究结果表明:随机森林算法是一种基于统计学习的分类器,该算法结合了决策树算法和重抽样法,它的本质是建立一个树形分类器的集合并使用其对数据进行分类和预测,随机森林算法相较于单分类器具有比较好的性能,且应用范围比较广泛。
本文的特色:对随机森林算法有一定的认识和理解,并了解算法的原理后在导师的指导帮助下实现了随机森林算法在股票优化方面的实践,让理论与实际数据结合,对算法进行更深一步的掌握和了解。
关键词:随机森林算法;数据预处理;机器学习;股票优化
Abstract
This paper selects the same type of stock data, uses the random forest algorithm to classify the data, selects the high quality stock in this kind of stock, chooses the best capital stock is the key choice part of the stock investment, is the necessary choice for the correct investment. The so-called high quality stock refers to the high return on investment and the strong anti risk ability in the stock market. And the stock price is affected by many factors, showing the random change characteristic of "irregular change", so it is more difficult to choose the high quality stock. In the stock optimization and selection problem, it can be mainly classified into two aspects: the choice of the dimension of the price, that is, In order to solve the problem of selecting high quality stock in stock investment, the decision of multi-dimensional index system and the determination of classification algorithm of selection model are made. In this paper, the stochastic forest algorithm is chosen to solve the problem of selecting high quality stock in stock investment. The computer is selected to apply this type of stock, in which each stock has several different aspects of data, and the collected data are preprocessed with the help of SPSS software. This paper describes the stochastic forest algorithm, the generation and principle of the algorithm, and the realization of the algorithm program, and evaluates and summarizes the algorithm. Finally, we analyze and evaluate the results of stock optimization using stochastic forest algorithm.
This paper mainly studies the generation and principle of stochastic forest algorithm and the realization of random forest algorithm program, and evaluates and summarizes the algorithm. Finally, we analyze and evaluate the results of stock optimization using stochastic forest algorithm.
The results show that the stochastic forest algorithm is a kind of classifier based on statistical learning. The algorithm combines decision tree algorithm and resampling method. The essence of the algorithm is to establish a set of tree classifiers to classify and predict the data. The stochastic forest algorithm has better performance than the single classifier and is widely used.
The characteristics of this paper: we have a certain understanding and understanding of stochastic forest algorithm, and we have realized the practice of stochastic forest algorithm in stock optimization with the help of tutor after understanding the principle of the algorithm, so that the theory and practical data can be combined. Further grasp and understand the algorithm.
Key Words:Stochastic Forest algorithm; data preprocessing; Principal component Analysis; Stock Optimization
目录
摘 要 I
Abstract II
第1章 绪论 1
1.1背景及意义 1
1.2 研究现状 2
1.3研究基本内容 3
第2章 股票市场描述 5
2.1我国股票市场状况 5
2.2国外股票市场状况 6
2.3股票价格变化 7
第三章 选股指数体系 8
3.1股票优化影响因子选取 8
3.2股票数据处理及标准化 10
3.3主成分分析 12
3.3.1主成分分析的基本原理 12
3.3.2主成分分析的优缺点 13
第4章 随机森林描述与算法 14
4.1随机森林算法的产生 14
4.2随机森林算法的原理 15
4.2.1随机森林定义: 15
4.2.2单决策树的生成 16
4.2.3随机森林的生成 16
4.3随机森林算法的实现 17
4.4随机森林算法评价 17
第5章 总结与展望 18
5.1总结 18
5.2展望 18
参考文献 19
致谢 20
附录 21
第1章 绪论
1.1背景及意义
如今随着数据和信息的急剧发展和膨胀,我们已经步入大数据时代,海量的数据蕴含着大量的信息资产,因此对掌握的庞大信息数据中的含有意义的数据进行专业化的处理和分析,从中提取和总结出直接有效的信息,再进一步转化成为财富和资产,成为了当今时代的一种趋势和热门研究话题。然而如何在已有的海量的数据信息面前,获取有效的对海量数据进行统计分析和处理的算法工具,从而达到对数据信息的有效加工和处理,是比较困难且一直都是研究的热门话题之一,备受关注讨论和研究。
在数据挖掘领域,分类是一种重要的数据分析形式,分类技术也是一种重要的且被广泛应用于各个行业和领域的技术之一,它是根据数据训练集建立相对应的合适的分类器来预测类标号,根据分类器对所需要的数据做出预测的分类结果。而由于但分类器的局限性,研究学者们提出了多分类器的思想,也就是组合使用多个基分类器进行分类,最后结合所有的分类结果形成一个最终的分类结果,在这背景下产生了一种多分类器的结合,这种多分类器结合的思想起源于集成学习算法,集成学习算法的主要思想是利用一定方法学习出多个分类器,然后将多个分类器进行组合预测。目前我们接触较多的集成学习分两种,基于Boosting和基于Bagging,而基于Bagging的代表算法就是随机森林算法,也是本文研究的重点。随机森林算法是上世纪八十年代Breiman等人提出来的,其基本思想就是构造很多棵决策树,形成一个森林,然后用这些决策树通过共同投票决策最终输出类别是什么。随机森林算法是在构建单一决策树的基础上的,同时是单一决策树算法的延伸和改进。在整个随机森林算法的过程中,有两个随机过程,第一个就是输入数据是随机的从整体的训练数据中选取一部分作为一棵决策树的构建,而且是有放回的选取;第二个就是每棵决策树的构建所需的特征是从整体的特征集随机的选取的,这两个随机过程使得随机森林很大程度上避免了过拟合现象的出现。
目前随机森林算法的应用领域越来越广泛,功能也越来越强大,本文的主要目的是实现随机森林算法在股票优化方面的应用,具体包括对随机森林算法与原理进行描述,包含算法的产生及原理,以及算法程序的实现,并收集某一类多股股票,每支股票多个指标数据,数据处理后实现程序运行结果,并结合结果对算法评价。
1.2 研究现状
在如今的大数据时代,随机森林是一种具有高准确度的分类器,可以处理高维数据,在数据挖掘中起着至关重要的作用,并且广泛的应用于众多领域,同时备受学者们关注和研究,尤其是在在生物信息、文本挖掘、图像分类等领域的应用越来越多,成为当前数据挖掘、机器学习和模式识别等领域的一个研究热点。早在1989年,陈涛与邓方安等在关于癌症基因表达谱方面探究数据挖掘及随机森林的应用;在2009年,庄进发博士提出随机森林在流程工业生产在线故障诊断及若干问题研究。且明显在二十一世纪之前随机森林算法的研究还不是很成熟,二十一世纪之后随机森林算法的研究和完善得到了很大进步和发展,涉及的领域变得更加广阔,从生物人体到医药,从物理材料到影像等,不少学者专家在包含面部人脸识别方面,药材的快速鉴别分类,马氏体不锈钢成分和性能设计,影像提取和分类等等各方面做出自己的贡献,也使得随机森林更具有吸引力。2017年,高林,刘英等提出随机森林在交通状态判别中的应用,为交通状态判别提供了一个新思路。
而且在不少学者在致力于将随机森林应用于各个与自身相结合的领域方面时,同时还有很多优秀的学者们在专注于随机森林算法的不足,并努力提出宝贵的解决意见和改进方案。首都经济贸易大学的曹正凤博士于2014年在《随机森林算法优化研究》中在数据预处理方面,提出了两种改进随机森林的优化算法。首先,针对随机森林不能很好地处理非平衡数据的问题,根据聚类算法思想和物理学的重心理论,提出了C_SMOTE算法,该算法能较好地降低数据集的非平衡性,从而提升了随机森林算法的分类性能。杨宏宇和徐晋针对随机森林(RF,random forest)算法的投票原则无法区分强分类器与弱分类器差异的缺陷,提出一种加权投票改进方法,在此基础上,提出一种检测Android恶意软件的改进随机森林分类模型。