基于机器学习算法的股票市场预测外文翻译资料
2023-08-30 11:25:57
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
基于机器学习算法的股票市场预测
介绍摘要--股票市场的预测是一个长期吸引不同领域研究人员的课题。特别是, 利用支持向量机 (SVM) 和强化学习等机器学习算法, 对股市的走势进行了大量的研究。在本项目中, 我们提出了一种新的预测算法, 利用全球股市和各种金融产品之间的时间相关性, 借助支持向量机预测第二天的库存趋势。数值结果表明, 纳斯达克的预测准确率为 74.4%, Samp; P500 的预测准确率为 76%, DJIA 的预测准确率为27.6%。同样的算法也应用于不同的回归算法来跟踪市场中的实际增量。最后, 建立了一个简单的交易模型, 研究了该预测算法与其他基准的性能。
股票走势预测一直是一个有趣的课题,各领域的研究人员都在对其进行广泛的研究。机器学习是一种广泛应用的成熟算法,由于其在金融市场预测中的潜力而被广泛研究。据报道,支持向量机(SVM)和强化学习等常用算法在跟踪股票市场、在保持低风险的同时帮助股票期权购买利润最大化方面非常有效[1-2]。然而,在许多文献中,选择用于输入机器学习算法的特征大多来自所关注的同一市场内的数据。这样的隔离忽略了其他实体携带的重要信息,使得预测结果更容易受到局部扰动的影响。通过新的金融新闻或个人互联网帖子(如Twitter)整合外部信息,打破了界限。这些被称为情绪分析的方法,是对市场上几个关键人物或成功分析师的态度的回应,以插入一般投资者的思想。尽管它在某些情况下取得了成功,但当一些人有偏见时,情绪分析可能会失败,或者积极的观点跟随过去的良好表现,而不是暗示未来市场前景光明。
在本项目中,我们建议将全球库存数据与其他金融产品的数据结合起来,作为机器学习算法(如SVM)的输入特性。特别是,我们对在美国市场开始之前或开始时停止交易的市场的收盘价之间的相关性感兴趣。由于全球化加强了全球经济体之间的联系,对金融市场的外部干扰不再是国内的。我们相信,海外股票和其他金融市场的数据,特别是那些与即将到来的美国交易日具有强时间相关性的数据,应该对基于机器学习的预测有用,并且我们的猜测得到了数值结果的验证。
报告的其余部分组织如下。第二部分详细介绍了该算法的基本原理、数据采集和特征选择。数值结果见第三节,随后进行分析和讨论。在第四节中,我们建立了一个简单的交易模型,以证明所提出的算法在纳
斯达克增加利润方面的能力。第五节总结了整个报告。
- 算法
A. 基本原则
全球化加深了全球金融市场之间的互动。美国金融危机的冲击波冲击了几乎所有国家的经济,希腊的债务危机导致所有主要股指下跌。如今,没有一个金融市场是孤立的。经济数据、政治动乱和任何其他海外事务都可能导致国内市场的剧烈波动。因此,在本项目中,我们建议使用世界主要股票指数作为我们基于机器学习的预测器的输入特征。特别是,在美国市场交易日之前或刚开始时关闭的海外市场应提供有关即将到来的美国交易日趋势的宝贵信息,因为它们的运动已经说明了市场对最新经济新闻的可能情绪或对重大世界事务进展的反应。.
图1.世界金融市场
除了股票市场之外,商品价格和外币数据也被列为潜在特征,因为不同的金融市场相互关联。例如,美国经济放缓肯定会导致美国股市下跌。但与此同时,随着人们寻求资产避风港,美元和日元相对于其同行将增加。这种相互作用意味着这些金融产品之间的潜在关系,以及使用其中一种或某些金融产品来预测其他金融产品移动的可能性。
B. 数据收集
此项目中使用的数据集是从[3]收集的。它包含表1中列出的16个数据源,涵盖2000年1月4日至2012年10月25日的每日价格:由于市场在不同国家的节假日关闭,我们使用纳斯达克作为数据对齐的基础,其他数据源由线性插值代替。
表1 |
数据源 |
|||
Stock |
NASDAQ, DJIA, Samp;P 500, Nikkei 225, |
|||
Hang Seng index, FTSE100, DAX, ASX |
||||
Currency |
EUR, AUD, JPY, USD |
|||
Commodity |
Silver, |
Platinum, |
Oil, |
|
GoldC:DropboxCS229 Project |
||||
C. 功能选择
在这个项目中,我们重点预测 股票市场(增加或减少)。因此, 随着时间的推移,功能的更改比 每个特征的绝对值。我们定义 ,其中,在时间是特征。特征矩阵是由给定
(1)
Where
(2)
新的特征是两个日价格之间的差额,可以通过
(3)
(4)(5)
由于市场价值和基础的差异 市场上,上面计算的差值可能在 范围广。为了使它们具有可比性,其特点是 标准化如下 报
(6)
规范化可以实现为:
(7)
如上所述,股票市场的表现预测器很大程度上取决于数据之间的相关性用于培训和预测的当前输入。直观地说,如果股票价格的趋势总是 昨天,预测的准确性应该相当高。到 选择具有高时间相关性的输入特征,我们 计算了不同材料的自相关和互相关 市场趋势(增加或减少)。结果显示在 图2以纳斯达克为基础市场。
图2.市场趋势的自相关和互相关以纳斯达克为基础
从图中可以看出 纳斯达克每日趋势仅在原点非零 我们可以得出结论,纳斯达克日指数的走势 是一个马尔可夫过程。因此,过去的数据 纳斯达克不会对其未来提供太多洞察运动。同样的结论也可以在许多其他方面得出。与纳斯达克的交叉关联度接近零。尽管道琼斯工业平均指数和标准普尔500指数的走势强劲 与纳斯达克的相关性,因为数据在同一天, 它们在需要时不可用预测。但是,数据源,如DAX AUD和 其他一些市场对我们的预测器很有希望 由机器学习算法构建,因为它们具有较高的 与纳斯达克的相关性及其数据是 在美国市场交易之前或开始时可用时间。这一观察结果实际上证实了我们的预测原理, 如前几节所讨论的,关于互连 在全球市场之间以及信息如何反映他们的行动有助于我们预测股票市场。
除了每日市场波动的相关性之外,它也值得研究市场趋势的相关性 更长期的,这也可能为 预测未来价格[4-5]。为了研究这一点,式(3)中的delta;是 从1天到50天不等,并绘制部分结果 在图3中。从图中可以看出,时间 市场之间的相关性随着时间的推移而增加。 计算股票指数趋势的窗口delta;。这种现象的一个解释是式(3)使输出的时间跨度与每个时间跨度重叠其他,因此增加时间相关性。 此外,该操作还隐式地进行平均在有效删除 噪音和市场之间的潜在相关性 变得更加清晰。
图3.不同市场趋势的自相关和互相关 时间跨度
考虑到所有可能的特性,我们向前实现了特征选择算法,用于选择有贡献的特征 对不同机器的预测精度影响最大学习算法。详细结果将在下一节中介绍 部分。正如预期的那样,每日市场趋势和长期运动提供最佳效果。
III. 实验结果与讨论
A. 趋势预测
1) 单特征预测
在第2节中,我们使用互相关来估计每个功能的重要性。核实 相关性分析,我们使用个体特征来预测每日纳斯达克指数走势。各单项预测精度功能如图4所示。
图4.单特征预测精度
从图中可以看出,DAX产生的效果最好结果:预测准确率为70.8%。预测精度 澳元、富时指数和油价也相对较高,分别达到67.2%、66.4%和65.2%。
实验结果支持交叉分析。- 相关性。因此,我们确信 股票市场和商品价格可以提供有用的预测过程中的信息。
2) 长期预测
除了日常活动,有时我们也关心长期预测结果。在这里,我们定义 问题是预测 明天的指数相对于前几天的指数。 我们使用支持向量机作为训练模型和预测精度 在不同的时间跨度下,如图5所示。.
图5.长期预测的准确性
从图中我们可以看出预测的准确性 当时间跨度变长时增加。这是因为 时间越长,我们掌握的信息越多, 更高的抗噪声预测能力。最后,我们可以当垃圾邮件的时间超过30天时,达到85%的准确性。 实际上,我们可以把这个问题重新解释为估计问题。 其中,这个 对应于日后提到的回归问题 股市波动。 3)多特征预测 使用第2节中描述的功能,我们比较 支持向量机算法和mart(a)的预测精度 基于决策树的提升算法)。预测结果如表2所示。
3) 多特征预测
使用第2节中描述的功能,我们比较支持向量机算法和mart(a)的预测精度 基于决策树的提升算法)。预测结果 如表2所示
表二.一天预测的准确度
从表1可以看出,SVM和智能学习者可以达到74%。这种日常趋势 预测精度高于大多数模型和 财务分析网站上报告的价值。
此外,我们注意到SVM算法对 培训数据的大小。当训练集的大小不是 足够大,SVM算法找到的超平面可能不会 能够正确分割数据。因此,特征选择是 使用SVM时必不可少。相反,多重加法 回归树(mart)算法需要较少的训练数据更喜欢高维特征集报错。
为了测试模型的通用性,我们使用了相同的预测其他两个美国股市的算法。这个结果见下表3。
表三.美国所有股市的预测准确度
可以看到,表中的所有条目都是高的。这表明我们的模型可以应用于美国所有的股票市场。事实上, 利用不同股票市场之间的时间延迟的思想 也可用于其他指标的预测。
B.回归
与股票走势相比,股票的实际增长指数可以为投资策略提供更多信息。这意味着分类问题现在演变成 回归问题。为了判断我们模型的性能,我们使用均方误差平方根(rmse)作为标准,定义为
(6)
我们使用线性回归,广义线性模型(GLM)支持向量机算法预测纳斯达克日准确值 运动。不同算法的RMSE值为 报告见下表4。
表四:存货的准确率
表中的基线预测器由零组成。- 订购保留过滤器。从表中,我们可以看到SVM给出 最准确的预测。SVM给出的RMSE为21.6,只有平均波动的一半,47.66
C.多类分类
在前一部分中,我们探讨了各种改进方法预测精度与最小均方根 错误。这些努力可以直接用于最大化交易利润。然而,除了利润最大化,另一个 我们的任务是将交易风险降到最低。在这一部分,我们 将使用SVM回归模型并从 支持向量机算法中的直觉
在SVM中,点和超链接之间的距离- 飞机是,我们对自己的预测更有信心, 然而,我们的预测不可能非常准确 接近超平面。为了将交易风险降到最低,我们可以找出这些风险点,忽略它们的预测标签。 因此,我们需要将原始数据分为至少三类 课程,消极,中立和积极。这就是直觉 导致我们的多类分类模型的原型
要建立多类分类器,首先需要 定义中心区域的宽度。评估效果如何 我们的分类器是,我们引入了精度和召回,定义为
(7)
(8)
在上述方程中, 、 和 代表真正,分别为假阳性和假阴性。精度 不同中心区域宽度的回忆值为 如图6所示。图中,正类的回忆反映了预计上升天数占所有上升天数的比例 而精确性则表明了不断上升的预测中的命中率。 因此,召回直接影响交易频率和 精度每次都会
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[609285],资料为PDF文档或Word文档,PDF文档可免费转换为Word