时间序列、计量经济学、机器学习和深度学习模型进行股票价格预测外文翻译资料
2023-04-18 18:29:23
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
时间序列、计量经济学、机器学习和深度学习模型进行股票价格预测
摘要
长期以来,研究人员一直致力于开发一种可靠、准确的股价预测模型。依据相关文献,如果对预测模型进行改进,它们可以更加准确的预估未来的股票价格。本文提出了一套基于时间序列、计量经济学和其它相关的股票价格预测模型。使用了Infosys、 ICICI、和 SUN PHARMA这三个股票从2004年1月至2019年12月的数据,对模型进行了测试,以了解哪个模型在哪个领域表现最好。本文包括一个时间序列模型(Holt-Winters 指数平滑)、一个计量经济模型(ARIMA)、两个机器学习模型(随机森林模型和MARS模型)和两个基于深度学习的模型(simple RNN 和 LSTM)。MARS 已经被证实是性能最好的机器学习模型,而 LSTM 被证实是性能最好的深度学习模型。总体而言,对于IT行业(Infosys的数据)
、银行(ICICI的数据)和医疗业(SUN PHARMA的数据)这三个板块而言,MARS模型已被证明是销售预测方面表现最好的模型。
关键词:时间序列、计量经济学、回归、深度学习、 Holt-Winters 指数平滑、 ARIMA、MARS、卷积神经网络RNN、长短期记忆神经元LSTM、股票价格预测。
一、绪论
长期以来,研究人员一直都对股票期货价格预测很感兴趣。尽管有效市场假说的拥护者断言,准确预测股价是不可能的,许多研究人员并不认同这一观点。文献中有一些说法表明,如果对预测模型进行正确的开发优化,可以非常精确和可靠地预测未来的股票价格。人们还发现,用于建立预测模型的变量的选择、使用的方法以及模型的优化方式都会影响其准确性。研究人员提出了一种基于时间序列分解的股票价格预测方法[1-4]。机器学习和深度学习在预测股票价格和跟踪其模式运动时也变得越来越重要[5-7]。基于时间序列分解的方法也被用于对印度的快速消费品、房地产、大型股、中型股、银行和其他行业进行预测分析[8-10]。研究人员还利用基于RNN的深度学习技术,开发了一个强有力且有充分依据的谷歌股价预测模式[11]。一些使用卷积神经网络(CNN)和长期与短期记忆(LSTM)网络为基础的模型而建立的工程也表明能够有效和高水平的精确预测股票价格 [12-19]。利用分量回归方法来分析汇率和股票收益率之间的相互作用效应。研究人员还介绍了基于误差模型和格兰杰因果关系的股票价格预测。文献[22-23]中还提出了基于事件交易的股票价格预测、基于社交网络新闻条目的神经语言处理以及应用机器学习和深度学习模型。
目前的研究包括一个时间序列(TS) ,计量经济学和基于学习的模型,以及
预测未来的价格的三个重要股票,其中这三个股票都来自印度的国家证券交易所(NSE)。我们研究的股票是Infosys、 ICICI、和 SUN PHARMA。这项研究涉及三个部门: IT、银行和医疗业。对 IT 部门的研究,我们获取了 Infosys 的股价数据; 对于银行部门,我们选择了ICICI 的股价数据; 对于医疗业,我们考虑了 SUN PHARMA 的股价数据。上述三个行业收集的数据是从2004年1月至2019年12月。所有模型都会使用2004年1月至2018年12月的数据进行测试,并用2019年1月至2019年12月的数据集对模型的性能进行测试。所选的响应变量是稠密的。在这项研究中,建立了六个模型,分别是 Holt-Winters 指数平滑模型、ARIMA、随机森林模型、MARS、RNN 和 LSTM。通过引入深度学习 LSTM 模型,增强了该方案的预测能力。所有的模型都有不同的结构,它们的运作理论也不同。基于时间序列、计量经济学和深度学习的模型都是单变量输入数据,而机器学习模型则是多变量输入数据。
我们工作的主要贡献如下:首先,我们将时间序列、计量经济学和基于学习的技术结合起来,建立了六个模型,并将这些模型应用于三个主要行业,以非常高的精度预测股价。其次我们用 LSTM 模型根据过去7天的股价预测第8天的股价。最后,我们就能够找出在应用模型中哪个模型在哪个部门效果最好,并基于股票收益率的最低值和股票价格收盘价的平均值确定了最佳模型。
该论文分有五个部分,我们在本节要解决的问题陈述在第二部分有具体分析,在第三部分简要回顾了有关股票价格预测的一些研究。第四节说明了解决这一问题所采用的方法。第五节介绍了不同方法的实验结果,第六节对工作进行了总结,并提出了一些未来可能的研究方向。
二、问题陈述
我们研究的目的是建立一个稳健的模型来预测 IT、银行和医疗业三个不同部门的股票价格。为此,从雅虎财经获得了2004年1月到2019年12月共15年的数据,它们分别属于 IT、银行和卫生部门的三个组织的 Infosys、 ICICI 和 SUN PHARMA。采用时间序列、计量经济学、机器学习和深度学习模型对上述三个组织的股票价值进行预测。我们假设,在所有使用的ML模型中,MARS模型能够提供最好的准确性,因为它能够从数据集中识别重要特征,并开发一个由一系列线性函数组合而成的模型。LSTM 模型能够从数据中提取出大量的特征,因此能够产生良好的结果。
三、相关工作
本文对股票价格预测研究的现状可以分为三类。第一种是用Holt-Winters 指数平滑技术处理单变量数据,这种方法在生成短时间预报方面很有效。但是它也存在一些缺点,包括季节指数的标准化、初始值的选择和平滑参数的选择[24]。第二种使用ARIMA模型,但与该方法的唯一缺点是使用该模型之前序列需要转换为静态的。此外,ARIMA 模型的假设是方差为常量,但金融时间序列表现出波动性的变化,这一特征不符合ARIMA 模型的假设[25]。第三种的模型涉及机器学习技术,比如随机森林和MARS模型。随机森林回归在预测中有时会因为数据的随机性而出现问题,但是 MARS模型通过自动特征选择改进了回归问题的输出,即去除了那些对模型没有贡献的预测变量[26-27]。我们研究的第四种模型属于基于深度学习的模型,如RNN和 LSTM,可以从过去的数据中找到非线性模式,因此,金融时间序列的随机性很容易处理,从而得到一个非常精确的预测股票价格[28-29]。
四、方法
在这项工作中,我们用来预测股票价格的方法是时间序列、计量经济学和基于学习的方法。时间序列包括一个 Holt-Winters 指数平滑模型,计量经济学方法涉及一个ARIMA模型,机器学习技术涉及随机森林和MARS两个模型,深度学习方法涉及 RNN 和 LSTM 两个模型。所有上述模型都应用于股票价格预测的三个重要领域,即 IT、银行业和卫生行业。包括Infosys、 ICICI 和 SUN PHARMA这三家公司的股票数据都用来测试这些模型。其中这三家公司从2004年1月至2019年12月期间的股票数据均来自雅虎财经网站。相关变量设置: (a)日期,(b)开盘,(c)高点,(d)低点,(e)收盘。对于所有的模型,都以股票价格的收盘价作为目标变量。每种模型的原理都会在下文进行论述。
1.Holt-Winters指数平滑
这种方法考虑到了之前数据的加权平均值,其中的权重随着观测年龄的增长呈指数递减。单指数平滑只有一个参数alpha;,适合于具有平稳性特征时间序列的预测。双指数平滑又称Holt指数平滑,适合于具有平稳性和趋势性特征的时间序列的预测。在Holt- Winters指数平滑中,不仅包含了平稳性、趋势性,还加入了季节性特征时间序列的预测。设置参数alpha;、beta;、gamma;来描述平稳性、趋势性和季节性的影响。
在本研究中,我们采用指数平滑法对三家公司的股票价格进行了单变量分析,并将其应用于三家公司的股票价格预测。开始有3964条记录,去掉空值后,变成了3949条记录。Infosys、 ICICI、和 SUN PHARMA从2004年1月至2018年12月的数据(3708条记录)用作训练数据集,2019年的数据(241条记录)用作测试数据集。从包中导入指数平滑函数,加入季节性参数。因为数据集中的季节性是不变的,以5为季节周期,这意味着数据将在每五天后呈现季节性。通过计算RMSE 得分与测试部分的平均值之比来确定模型的性能。在三个行业中,Holt-Winters 指数平滑模型在卫生部门(SUN PHARMA的数据)效果最好,在银行部门(ICICI的数据)效果不佳。
2.ARIMA模型
自回归综合移动平均(ARIMA)由三项自回归(AR)组成,即预测值是过去观测值的线性组合。积分(I)是指时间序列的差分使其保持平稳。在非平稳时间序列中,由于趋势和季节性的影响,预测可能不准确。因此,为了避免这种情况,时间序列首先通过差分使其保持稳定,这就是观测值和最近的过去观测值之间的差别。利用增广的ADF和KPSS检验研究了该系列的平稳性行为。移动平均值(MA) ,它用过去几个观测值的残差的平均值来预测现值。如果噪声引起的任何错误包含在数据中,则移动平均项无效。ARIMA 由三个参数 p,d 和 q 组成,其中 p 表示预测中需要考虑的最大滞后,d 表示实现平稳序列所需的差分,q 表示预测中需要考虑的最大误差。
在我们的案例中,使用 ARIMA进行单变量分析,将其应用于三家公司的股票价格收盘列。最初有3964条记录,去掉空值后,变成了3949条记录。Infosys、 ICICI、和 SUN PHARMA从2004年1月至2018年12月的数据(3708条记录)用作训练集,2019年的数据(241条记录)用作测试集。运用函数确定 p、 d 和 q 的最佳值,得到了 Infosys 数据的 p、 d 和 q 的最优值为3,1,1,最小AIC = 24234.323。对 ICICI 数据,p,d,q 值分别为2,1,2,最小 AIC = 23119.75。对于太阳药厂的数据,p,d,q 的最优值为2,1,1,最小 AIC = 26685.265。在得到某一特定部门的 p,d,q 的最优值后,将其作为输入值输入到 ARIMA函数中,得到预测的股票价格。通过比较 y测试值和 y 预测值,计算 RMSE 值和收盘平均值之比,来确定模型的性能。在三个板块中,ARIMA模型在 IT (Infosys)和银行(ICICI)板块表现良好,在医疗保健板块(SUN PHARMA)表现不佳。
3、随机森林
随机森林回归是一种基于决策树集合来预测每棵树的输出,然后取所有预测值的平均值作为随机森林模型的输出预测的集合技术。它使用了装袋的概念,即引导和聚合。引导意味着从数据集中选择随机样本进行替换。聚合是得到最终输出的所有预测的组合。装袋有助于减少模型的过度分配。
为了建立模型,我们对开盘价、最高价、最低价、收盘价、调整后的收盘价和成交量这些变量进行了多变量分析。Infosys、 ICICI、和 SUN PHARMA从2004年至2018年的数据(3708条记录)用作训练集,而2019年的数据(241条记录)用作测试集。并应用线性函数归一化将所有特性调整到0到1之间。在 x-train 和 y-train 上拟合了随机森林模型,并在 x-test的基础上预测了成交量的大小,数值与原值成反比。在y-test和y-pred的比较中,计算了RMSE得分与收盘价的测试集均值的比值以及与收盘价的训练集均值的比值。在三个行业中,该模型在卫生部门表现最好(SUN PHARMA 数据) ,在银行部门表现不行(ICICI 数据)。
4、MARS模型
多元自适应回归样条(MARS)采用了数据集的非线性。MARS算法通过将输入变量分解成几个步长函数来工作,这些被称为基函数。这些功能是从节点的数据切点评估的。该算法在每个节点上搜索一定范围的值,选择产生最小误差值的步长函数,然后在每个节点上使用铰链函数,重复该过程以创建弹性非线性预测模型。如果节点数量增加,训练集会更好地拟合,但是这可能会导致过度拟合。经过改装的模型会降低测试数据结果的可靠性,因此需要使用交叉验证来整改模型以达到理想的节数。MARS的操作概念需要创建一个复杂的模型,通过在每个节点上结合成对的阶跃函数,并在向前传递阶段必须识别结点。反向传递阶段是指算法为了避免过度拟合而试图修改或者删除那些低贡献率数据。
我们对开盘价、最高价、最低价、收盘价、调整后的收盘价和成交量这些变量进行了多变量分析。Infosys、 ICICI、和 SUN PHARMA从2004年1月至2018年12月的数据(3708条记录)用作训练集,2019年的数据(241条记录)用作测试集。并应用线性函数归一化将所有特性调整到0到1之间。Earth()函数是从 py-earth 包中导入的,用于运行MARS模型。MARS模型在 x-train 和 y-train上进行了拟合,在x-test的基础上预测了成交量的大小,数值与原值成反比。通过对 y-test 和 y-pred 的比较,计算出 RMSE 得分与收盘价测试集的平均值的比值。在三个行业中,模型在银行部门(ICICI数据)表现最好,在卫生部门(SUN PHARMA数据)表现较差。
5、RNN和LSTM模型
在深度学习中,使用了两种模型——简单RNN和堆叠LSTM。以 Infosys、 ICICI、和 SUN PHARMA从2004年1月至2018年12月的数据(3708条记录)用作训练数据集,2019年的数据(241条记录)用作测试数据集。我们做了单变量分析,只取范围内相近的列。并应用线性函数
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[588768],资料为PDF文档或Word文档,PDF文档可免费转换为Word