随机森林算法在股票优选中的应用文献综述
2020-04-29 18:50:19
选择优资股票是股票投资中的关键抉择部分,是正确投资的必要选择,所谓的优质股票指的是股市中投资回报高,抗风险能力强,成长性好的优良股票。而股票的价格受到诸多因素的影响,表现出“毫无规律变化”的随机游动特性,因此选择其中的优质股票的难度比较大。在股票优化和选择问题中,主要可以归为两方面:影响价格的维度选择,即多个维度指标体系的决定和选择模型分类算法的确定,本文选择随机森林算法,解决股票投资中选择优质股票的实际问题。
随机森林(Random Forest) 是集成学习 (ensemble learning) 算法的一种,它利用多棵树对样本进行训练并预测的一种分类器,同样也可用户回归,其输出的类别是由个别树输出的类别的众数而定。 该算法最早由Leo Breiman和Adele Cutler提出, 而”Random Forests”是他们注册的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中。
.随机森林训练过程:
1.用N来表示训练用例(样本)的个数,M表示特征数目。.从N个训练样本中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中mlt;lt;Mmlt;lt;M2。
3.对于每一个节点(每个样本有M个属性时),随机选择m个特征,采用某种策略(比如信息增益)来选择1个属性作为该节点的分裂属性并进行分裂。
4.每棵树都会完整成长而不会剪枝(Pruning,这有可能在建完一棵正常树状分类器后会被采用)。
5.将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
随机森林算法的优点: