机器学习方法在股票价格预测中的应用文献综述
2020-04-28 20:19:24
林升,綦科,魏楷聪,张伟[1]等人通过对股价预测研究方法的发展变化进行综述,重点关注深度学习在股价预测中的应用,最后对其后续发展进行了总结与展望。其结果表明在股票预测方面目前研究中有通过图像、数据、新闻等各个方面进行研究, 并都获得一定了成效, 可以根据不同方法进行优劣互补结合;通过分析研究经过深度学习之后产生的权重关系矩阵, 寻找内在的经济联系从而验证相关的金融理论。
崔栋才[2] 在研究中说明证券数据是一种时间序列,具有高度的复杂性和不确定性,通常只有极少数交易者能掌握证券数据趋势特征。机器学习通过对证券历史数据的学习和自动优化算法,可模拟或实现人类的思维模式获取数据信息或特征,因此是对证券数据趋势特征分析的有效技术。
姚雨琪【3】 在《基于机器学习的股票分析与预测模型》研究中使用了纯技术面分析的方法,将机器学习运用于股票分析与预测可以提高股票价格信息预测的效率,保证对海量数据的处理效率,机器学习过程可以不断进行优化模型,使得预测的可信度和精度不断提高,机器学习技术在股票分析方面有很高的研究价值。
喻永生【4】在《股票价格预测中机器学习的应用》说明预测手段结合多种算法,能够一定程度上弥补单独算法存在的缺陷。我们可以尝试通过多种算法的组合来提升算法的准确性和实用性。
林娜娜, 秦江涛【5】在《基于随机森林的A股股票涨跌预测研究》中证明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。
李国和, 张腾, 吴卫江等【6】在《面向机器学习的训练数据集均衡化方法》中,为提高机器学习算法对于不均衡数据的建模效果,提出了一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。这样能更好获取样本空间分布特性,可有效应用于地震相识别。
李静, 徐路路【7】《基于机器学习算法的研究热点趋势预测模型对比与分析》:表明基于LSTM模型对热点主题未来发展趋势预测准确度最高,支持向量机预测效果次之,BP神经网络预测效果较差且预测稳定性不足。这表明每个算法都有着自己的不足。
张雪蕾, 汪明, 曹寅雪等【8】《 3种典型机器学习方法在灾害敏感性评估中的对比》:运用K近邻、朴素贝叶斯、随机森林3种监督学习方法,通过设置不同参数和样本比例训练模型,通过准确率曲线和混淆矩阵比较了3种方法在灾害敏感性评估中的效果,分析了3种方法的差异和适用条件。结论是K近邻算法是利用距离度量样本之间相似性,因此,当样本数据的某一变量差异性较大时,或者不同变量的单位存在很大差异时,应尽量避免直接使用K近邻算法。样本数量大于1 500时,K近邻算法、朴素贝叶斯算法、随机森林算法的评估结果非常接近,但是随机森林的效率明显低于其他2种方法,因此在样本数量较大时,单独使用K近邻和朴素贝叶斯算法即可得到较好的评估结果。
通过对文献的查找和阅读,发现在运用机器学习对股票进行研究和预测中,对于股票的样本和特征的选取十分重要,通过查阅文献,决定使用姚雨琪【3】 在《基于机器学习的股票分析与预测模型》提供的指标体系,对股票走势的预测只做纯技术面分析对股票图样趋势来分析和研究,来判断价格的走势,不考虑股票市场供应和需求关系的相关因素(如宏观经济、政策导向、财务状况以及经营环境等)。
对于样本的选取,将会选择工商银行或者是中国平安的股份进行使用,数据的收集将会通过UCI数据库和学校图书馆提供的数据库。