基于SVM的股市趋势预测方法外文翻译资料
2022-10-01 21:23:58
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于SVM的股市趋势预测方法
摘要:本文提出了一种基于SVM的股市趋势预测方法。该方法主要分为两个部分:特征选择和预测模型。在特征选择部分,一个基于相关支持向量机滤波器被应用到选择良好的财务指标子集和财务指标排名中。股票指标在排名的基础上进行评估。在预测模型的部分,一个被称为准线性支持向量机应用于在给定历史数据下预测股票市场的运动方向,这种预测将选定的财务指标子集的加权作为输入。准线性支持向量机是一种具有复合准线性核函数的支持向量机,它近似于局部线性分类器的非线性分离边界。台湾股市的数据集上的实验结果表明,基于SVM的股票市场趋势预测方法在命中率上比传统的方法有更好的性能。此外,实验结果还表明,基于SVM的股票市场趋势预测系统可以找到一个很好的股票指标子集,并评估股票指标,为投资者提供有用的信息。
1简介
股票市场是一个复杂多变的系统。股票市场趋势预测的特征有数据强度大,噪声高,不稳定性,高度的不确定性,和隐藏的关系[1]。因此,在股票市场上股票价格走势的预测被认为是一个挑战。
一个典型的股市趋势预测系统通常包括两个主要部分:特征选择和构建预测模型,如图1所示。近年来,支持向量机(SVM)[2]已广泛应用于股票市场趋势预测中预测模型的构建。L.Yu等(2005、2009)[1],[3]提出了一种基于混合核的最小二乘支持向量机学习范式,探索股票市场的运动方向,其中遗传算法用于特征选择和系统参数的确定。同样,R.Choudhry等人(2008)[4]和V.Khatibi等人(2011)[5]还结合遗传算法和支持向量机去预测股票价格的未来走向。C.Huang等(2008)[6]结合wrapper方法和支持向量机预测韩国和台湾股票市场的趋势。L.P.Ni等(2011)结合分形特征选择方法和支持向量机预测股票价格指数的走向。S.Lahmiri(2011)[8]采用Granger因果关系检验和支持向量机预测股票市场日趋势。X.S.Sui等(2007)[9]将支持向量机的分类复杂度作为特征选择准则,并利用所选取的特征子集对上海证券交易所综合指数进行预测。T.Zhang等(2008)[10]整合粗糙集(RS)和支持向量机的选择特征子集并预测标准普尔500指数。M.-C.Lee(2009)[11]提出了一种基于混合特征选择方法和支持向量机预测股票市场走势的预测模型。
图1 一个典型的股票市场趋势预测系统
虽然在股票市场趋势预测中这些现有的股票市场趋势预测系统已被证明是有效的,并产生良好的预测性能。然而,有三个方面是可以改进的。首先,在预测模型中,在高维和高噪声的数据集上,支持向量机在面对多个问题上往往存在较大的困难。它可能会影响支持向量机的泛化性能[13],[12]。当将支持向量机应用于股票市场趋势预测时,往往忽略了支持向量机的上述局限性。在财务数据的拟合问题中,由于财务数据的高波动,高纬度和噪声,上述问题可能发生[1],[3],[4],[15],[14]。其次,在特征选择上,虽然这些特征选择方法能够有效地降低财务数据集的维数和噪声[5,6,10,11],[8]。但是他们有其局限性,即不能准确地选择一个包含指定特征的特征子集,特征子集与输出高度相关,但彼此不相关。第三,在现有的股票市场趋势预测系统中,通常将重点放在特征选择和预测模型,而忽略对特征的评价。虽然一些研究已经注意到对特征进行评价,但这些方法容易受主观因素和多重共线性的影响[8]、[11]、[16]、[17]、[18]。
为了提出解决以上问题的方法,本文提出了一种基于支持向量机方法的股市趋势预测方法,它整合了基于相关支持向量机的过滤方法[19]和[20]拟线性支持向量机。一个相关SVM滤波方法首先用于对输入特征进行选择和排序,产生一个特征子集作为市场趋势预测的准线性SVM的加权输入。准线性支持向量机是一种具有准线性核函数的支持向量机,它近似于局部线性分类器的非线性分离边界。通过适当的组合一个准线性核函数,准线性支持向量机在股票市场趋势预测中是可能避免过拟合的。
图2 基于支持向量机的股票市场趋势预测的总体框架
本文的其余部分安排如下:下一节详细介绍了基于支持向量机的股票市场趋势预测系统,第3节对台湾证券市场数据集进行数值试验,最后,第4节给出结论。
2 基于SVM的股市趋势预测
图2展示了基于支持向量机的股票市场趋势预测系统的总体框架。它由两部分组成:基于相关的支持向量机的特征选择和准线性支持向量机的趋势预测。
- 基于相关支持向量机的特征选择
影响股市走势的财务指标有很多。但并不是所有的财务指标都是可用于预测的。一些财务指标可能与股票市场趋势有更多的相关性,而其他的财务指标则可能没有相关性。[21]因此,选择一个好的财务指标的子集,以很好的预测股票市场的趋势是至关重要的。一般而言,一个好的子集不仅应包含财务指标的多样性,而且对股票市场趋势也有更高的影响。为了这个目的,我们采用由作者开发的基于相关支持向量机滤波方法[19],以找出一个很好的与输出高度相关但彼此不相关的特征集。
基于相关支持向量机滤波方法主要包括两个模块:基于支持向量机的特征排序和基于相关的聚类分析。基于支持向量机的特征排序实现了一种基于支持向量机的特征排序方法,该方法有助于消除对股票市场趋势影响较小的财务指标,并对选定的财务指标进行评估。另一方面,基于相关的聚类分析实现了吸引子传播算法(AP)[22],依据财务指标之间的相关性将财务指标分成一些集群。在每个集群中,一个财务指标与其他指标具有很高的相关性,但与其他集群中财务指标的相关性却很低。因此,同一个集群的财务指标具有相似的特征。从每个集群中,依据对基于支持向量机的特征排名模块的输出量的影响力大小,我们选择一个财务指标作为代表。详细信息请参考文献[19]。
以这种方式,基于相关的支持向量机滤波方法能够选择一个良好的财务指标子集而且选定的财务指标已根据对股票市场趋势的影响大小进行了排序。在实现相关SVM滤波器的过程中,线性相关系数[23]用来测量输入数据的相关性,在AP聚类方法中,由Ratsch的一套方法[24]确定的偏好参数P确定聚类数。
选定的财务指标的排名为投资者提供有用的财务信息。在预测模型中,排名将作为模型的输入权重系数。Sk表示排名,权重beta;k可以由下式计算
(1)
Sk表示选择特点的相关值,特征权重向量beta;k满足以下两个条件:0 le; beta;k le; 1 以及。
- 准线性支持向量机的趋势预测
如前几节所述,股票市场趋势预测的特征有数据强度大,噪声高,不稳定性,高度的不确定性,和隐藏的关系[1]。对于高维和高噪声的数据集,当使用灵活的非线性核函数时,支持向量机经常出现过拟合问题,这导致了低的的泛化性能[12],[13]。一个解决过度拟合问题的方法是使用基于多个局部线性分类器技术。基于这一考虑,我们将在股票市场趋势的预测中应用我们的准线性支持向量机[20]。准线性支持向量机是一种具有准线性核函数的支持向量机,利用插值方法实现多局部线性分类,实现了非线性分离边界。通过适当的组合核函数,可以解决过拟合问题。
让我们考虑对股市上行和下行的预测问题。然后,我们可以把注意力集中在二元分类问题。输入空间,记为X,X = X · diag(beta;)是结合了特征权重,X isin; Rn,输出空间,记为Y,Y isin;{1, minus;1}。通常,一个N实例的训练数据集表示为D = {(x1, y1), . . . , (xi, yi), . . . , (xN, yN)} sube; (X times; Y )N,一个非线性分离边界可以被看作是与M个局部线性插值边界的聚合:。预测模型FP(x)如下:
(2)
其中x是权重输入,Rl(x)是基函数,Ωj是局部线性边界的坐标参数向量。M是局部线性分类器的数目。通过增加M的值,由于基函数R(x)插值,非线性分离超平面fp(x)可以近似足够平滑。基函数的作用类似于功能空间的基。一个典型的例子是RBF,这将在后面介绍。
引入两个参数向量Phi;(x)和Theta;,定义如下:
(3)
方程(2)可以进一步表示为:
(4)
参照一个标准支持向量机的过程,我们采用结构风险最小化的公式(4),然后我们有一个QP最优化问题,描述如下:
(5)
上述QP最优化问题可采用拉格朗日算法计算。然后通过求解拉格朗日算法得到对偶公式:
(6)
方程(6)中的alpha;i是拉格朗日乘子。当alpha;i gt; 0时,xi被称为支持向量,它们可以表示为位于边缘或在边缘之内,直观地说,所有其他的训练实例不会出现大幅度超平面的几何位置。
复合准线性核函数定义为:
(7)
因为i = 1, . . . , N,因此,基于复合准线性内核定义公式(7),多局部线性模型插值fP (x)降低到标准支持向量机的准线性支持向量机。最后,模型fP (x)可以确定为非线性支持向量机与复合核分类器。
(8)
- 拟线性核函数组合
根据准线性支持向量机在上一节中描述的定义,复合核函数(7)是利用基函数Rl(x)建立符合训练数据的分布信息。由于基函数是用来对线性超平面进行分段,每个基函数对应一个局部线性超平面。因此,基函数应尽可能准确地抽象数据集的分布信息。在本文中,我们选择一个高斯函数的基础函数来表示输入空间的分布信息。
(9)
其中,micro;l是l-th数据簇的中心,sigma;l是l-th数据簇的宽度,lambda;是尺度参数。
为了获得输入空间的分布信息(即,局部数据中心和局部宽度)和基函数的数量M,需要使用数据集划分方法。一种数据集划分方法,考虑了邻近区域的样本分布和特征。可用于将样本分为局部子集。为了得到沿分离边界的分区,首先应用分离边界检测方法检测分离边界;然后,用k-means聚类[25]算法将所选样本分割成子集,并估计局部数据中心,局部宽度和复合内核基函数的数量M。基函数的个数M定义为3、尺度参数lambda;设置为0.1。
3 数据实验
在这一节中,我们将在台湾证券市场的数据集上应用我们所提出的基于支持向量机的股票市场趋势预测系统。与其他现有的方法进行比较,以展示该方法的有效性。
- 问题描述
在这一部分中,描述了特征选择、特征评价和股票市场方向等问题。首先,在股票市场趋势预测系统的领域中,特征选择是指选择一个原始输入变量的子集,这些输入变量通常是技术指标或基本指标。在股票预测应用中,高维和高噪声的特征向量增加了过拟合以及高计算成本的风险。特征选择通过确定可获得的特征的一个子集来降低维数和噪声,这在财务数据集的分类中是很重要的[26]。
其次,投资者也关心股票市场的哪些指标对股票价格走势有影响。这也是说,他们感兴趣的是衡量每个指标的重要性水平。特征评价是用来衡量股票指标的相对重要性和权重。
第三,股票市场方向的问题被建模为二元分类问题。在研究数据中,方向被归类为“1”和“-1”。“1”意味着第二天的股票价格高于今天的股票价格,而“-1”则意味着第二天的股票价格低于今天的股票价格。命中率用来衡量预测的性能,其定义为:
(10)
如果MOi = AOi,那么Hi = 1;否则,Hi = 0。MOi是模型输出,AOi是实际输出,N是测试用例的数量。
- 研究数据和输入变量的描述
1)研究数据:在这项研究中,用3家公司的数据和台湾股票市场的1个指标来测试所提出的基于支持向量机的股票市场趋势预测系统的有效性。有鸿海公司(HHC),台湾半导体公司(TSC),常青公司(EC),和台湾50指数(TW50)。每日的历史数据从台湾经济期刊数据库中得到(tejd)。数据集涵盖的时间从2008年7月到2012年1月,共880个观察期。数据集被分为两期:第一期是总数据集的95%,第二期是总数据集的5%。第一期用于学习模型,即训练集。第二期用于验证模型,即测试集。研究数据见表一。
表一 研究数据
Stock Name |
Training time periods |
Testing 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[149978],资料为PDF文档或Word文档,PDF文档可免费转换为Word |