主成分分析和极值理论在金融方面的应用外文翻译资料
2022-07-27 10:55:44
英语原文共 54 页,剩余内容已隐藏,支付完成后下载完整资料
主成分分析和极值理论在金融方面的应用
Julian Rachlin
摘要
这篇论文论证了应用极值理论和早已使用在航天物理学的主成分分析这两种数学方法在金融领域的可能性。承接着Cici Muldoon的工作,极值理论将会被使用在创造一定量股票交易策略。这种方法的长处将会通过从1985年1月到2004年12月的标准普尔500指数回报率数据检验论证。这相同的回报率数据将在发现潜在的目标市场结构或有用的交易信息的目标下使用主成分分析被审查。
章节一 介绍
在我们的印象中,物理学和金融学似乎没有很多的共同点。市场分析师和物理学家日常都会谈论影响世界移动的“力”。他们各自不知疲倦地设法去理解这些力怎么产生,他们会有怎样准确的影响,以及他们如何行动。虽然该种力量的供给和需求似乎并不类似于重力,但是他们都是以相似的方式影响着世界。考虑一个平衡位置被打扰的物理系统,物理学家的目标是懂得如何重新回到平衡状态。这种现象对于市场分析师是相同的,他们的任务是今天的新闻将会怎样破坏今天的 市场均衡和怎样才能重新回到平衡状态。金融市场和物理世界都在不断地以这种方式应对各种各样的力量(干扰)。这些相似之处是否太表面化了还是这些意向中的相似之处在暗示我们需要更深次的探索呢?
本文的目的是双重的。我们试图强调重要的物理和金融概念上的重叠和阐述通过应用当今在物理学上广泛应用的数学方法来使金融研究得到进步的可能性。另外一个目的是鼓励物理金融学的追随者。他们可能引导着更加具有创造性、描述性和有效的金融模型。这篇论文主要讲述了两种早已使用在航天学的数学处理过程。它们分别是极值理论和主成分分析。
在下一章节中,我们将会寻找使用极值理论来创造一个股票交易策略的可能性。这个策略已经在过去Cecilia Muldoon写的一篇论文中阐述。在这里我们会引用这个策略同时检验他们在标准基准,标普500上的性能。在再接下来的章节中,我们将会集中精力在主成分分析。用这个统计方法来分解金融时间序列的有效性将会得到评估。用这些方法的目的是寻找他们如何成功应用到金融学调查中去同时揭示了研究这两个不同的领域的重叠部分是否是有益的。
第二章 极值理论
2.1 介绍
极值理论是研究极端偏离中值的概率分布的统计数学的一个分支[17]。这些值在实际中是很重要的,因为它们常常代表着时间最大的起起伏伏点。灾难性的地震、洪水和市场崩溃都是可以由极值理论建立现实世界的例子。这个理论的基础在1958年被Gumbel提出。Gumbel发现特定分布的统计上的极大极小值可以由一大类总分布来渐进分析。极值累积分布函数的一般形式可以表示为:
(2.1)
这是对于极大值而言。对于极小值而言,由以下形式表示:
(2.2)
这种分布及其对应的概率分布在图2.1中画出。
图2.1:Gumbel累计分布函数和概率分布函数
迄今为止,极值理论被使用在各种应用中。在工程学方面,它被广泛使用在模型组合失败的风险同时在保险行业中,它被用来建模由灾难性事件导致的巨大的亏损的风险。在其他应用领域包括水文地质和气象也都有所应用。
在一篇还未出版的名叫“Extreme Value Theory: Bright Cluster Galaxies and the Stock Market”的论文中,Cecilia Muldoon讨论了Bhavsar最近在努力使用极值理论来决定明亮的星系是一群特殊的星系还是一正常现象的极端情况。他的方法比较匹配了极值分布模型、正常分布模型和两者的结合的实验数据好坏。在这之后,由于受到她的极值理论的知识储备,Muldoon之后计划提出了一个以其指导老师Gyan Bhanot提出的理论为基础的金融交易策略。在这个章节的剩下部分,我们会执行这个提出的策略和检验其效果。
2.2 方法
交易策略是建立在创建以选择市场的极端值分布的成分股票为基础形成的投资组合使其可以始终优于市场的原则之上的。为了组成这种投资组合,Muldoon建议使用过去12个月的回报数据来建立关于损失和收益的极值分布。其在每个时间点的图像画于图2.2。对于这张图而言。对于将来临的这个月,这些分布的股票将会被用来组合成短期和长期的投资组合。为了建立这些分布,过去12个月的全部股票回报数据将会被提取出来。然后从这个组,年代群体随机回报被选中。极值(极大值和极小值)将会从这个群体中被选择同时保留添加到极值分布中去。这些群体将会被选中成千次。其中的极值将会被用来定义过去12个月回报的极值。从两个结果分布中,我们组合了一个投资组合数据。这个数据我们能够被用来预测这些对应股票在下个月的数据值。
图2.2:极端损失/收益分布例子
为了完成这个任务,我们将会用标普500的数据检验,因为它的数据既代表着平均水平还足够分散极具代表这个市场的性质。我们使用的数据包含着标普500成分1984.01—2004.12月份股票回报数据。
在实际例子中,我们介绍一些逻辑上的约束。第一个约束限制是投资组合股票数量实验前已经决定好了。我们的投资组合将不会超过30个股票。在投资组合中的股票将会赋予同等的权重。再者,我们介绍了用一个步骤来消除两个极值分布的交互作用。如果一只股票不稳定,那么它可能出现在这两个分布中。为消除在投资组合中的潜在的不稳定性,我们会剔除这些股票。最后, 为了方便计算我们忽略红利和交易成本。
这只留下三个变量去调整改变投资组合的实验结果。它们分别是投资组合中的样本大小、样品数量和长/短比率。前面两个可以理解为改变用来构造极值分布的过程。样本大小就是股票的数量,S,组合成一族群体并在其中挑选极值。S,从这个层度上来看,在极值分布中与股票的多样化成反比。在某些给定的月份对于一些确定的股票数一贯表现和少量的股票特别的表现这两者之间有一个微妙的平衡。样本的数量,N,是以时间为轴所形成的群体并在其中选择极值的群体大小。该变量N乘以S再用总数量除以该乘积是选择一个股票在一个群体中的概率。其中的乘积应该比全部总数量大很多倍。最后,我们可以自由选择一个长/短期比率,这决定了多头和空头在整体投资组合的比率。作为一个实际例子,如果市场向上发展,长期头寸在一个投资组合中常常被赋予更大的权重。
2.3 结果
通常情况下,这个策略产生的回报与之前讨论的两个变量(样本大小和长/短比率)的调整有关。为了开始我们的调查,我们测算样本大小的效应时保持其他参数数值不变。一个初始小样本大小为30的投资组合将允许在投资组合中足够多样化的股票同时仍然能显示策略是否具有收益性。
图2.3 样本大小30,样本大小为2000,长/短比率为9
图2.3显示了交易策略在几个试验表现如何。很明显地是该策略是有利可图的,但是策略与标普500指数相比如何表现还有待考察。毫无惊讶地是,策略的不同实验会产生不同的结果。对于小样本值数据这将会特别正确。这是因为小样本大小允许在投资组合中有更多差异的股票。虽然是有利益的,在期许的回报中宽广的变量得到的收益是足够的以至于投资者不会再改变策略。为了改变,我们增加样本大小来使包含于投资组合的可能的股票变化范围变小。结果在下图2.4,2.5和2.6可以被看见。
图2.4样本大小50,样本大小为2000,长/短比率为9
图2.5样本大小50,样本大小为2000,长/短比率为9
图2.6样本大小100,样本大小为2000,长/短比率为9
我们所期望的是,对于同样的期望的回报变量在变少。再者,期望回报也变多作为这个改变的结果。增大样本大小会减少投资组合的随机性以及使投资组合与真实的极值分布更为接近。回报增加有三层含义。第一层是样本大小越大生成越高的回报。第二层含义是在期望回报下越大的样本大小导致越小的变化。最后一层是该交易策略明显好于一任意的股票投资组合。然而,相反极端的样本大小在图2.7中显示。图中样本大小为300。结果显示回报极具下滑。我们可以得到结论在相反极端的样本大小,回报会减少。因此在这两个极端范围内必定存在某个样本大小此时回报最大化。根据我们的测试,这个优化的样本大小为100。
图2.7样本大小300,样本大小为2000,长/短比率为9
在这之后,我们调查了改变长/短比率的效应值。按照常规来说,基于股票价格正常向上发展,权重越大通常对应的是多头头寸。在现在的测试中,长/短比率是9,也就是投资组合中90%为多头头寸剩下的10%为空头头寸。图2.8揭示了针对空头头寸改变长/短比率会减少回报。我们推断出这个交易策略有更少的效果因为股票有负面的损失或者正常情况下空头头寸不能组成一个好的长期的投资组合。
最后,通过粗略地估计长/短比率和样本大小的优化参数值,我们比较拥有标普500的交易策略。图2.9比较了投资组合的输出结果。红色虚线代表着标普指数,两条蓝色线代表着极值理论投资组合的两个策略。因为这个比较都没有空头,所以结果是可比较的。我们的交易策略没有超过标普指数的范围但其回报值比其低。这就意味着对于增加了交易成本和更高的极端值的波动的投资组合,一个明智的投资者可能更倾向于投资标普指数。
图2.8样本大小100,样本大小为2000,长/短比率为倍数
图2.9样本大小100,样本大小为2000,长/短比率为全长
2.4 结论
我们优化后的极值投资组合得到的结果在平均意义上与标普一致。考虑交易成本将被忽略和较高的波动性,投资标普指数似乎比这个灵活的交易策略更好。在另一方面,我们仍不能完全地忽视策略。鉴于其竞争力的表现,它作为一个强调潜在的股票投资的技术,可以定性评估更全面的交易策略的一部分可能是有用的。伴随着电子技术力量的发展,一个更严格的找寻优化样本大小的重要参数的工作可能产生更强的回报
章节3 主成分分析
3.1 介绍
主成分分析,简写PCA,是一种用来数据降维和解释多维数据集的统计方法。[9]最早定义主成分分析是在社会科学里。在1904,Charles Spearman 在美国心理学杂志出版了 “General Intelligence, Objectively Determined and Measured”。在这篇论文中,他实验了人类的用来连接各种譬如数学、写作、推理能力等客观事物的智力能力。他用PCA方法的分析显示决定智力能力的潜在智力因素与客观事物无关。这个因素后来被广泛知道为IQ。研究PCA的结论是对一用来分析大数据集合的统计方法的认知。PCA现在被广泛应用于科学领域以及被使用在那些焦点在事物相关联系上的各种不同的应用上。特别地,过去十年我们见证了PCA在作为统计学挑战的宇宙学的频繁使用。
用PCA解决的问题的通常描述为:分析n个目标的m个参数组成的m﹡n数据集之间的关系。PCA的核心步骤是重新定义这些数据集形成一组由原始变量变为具有正交线性的新变量的数据组合。这个新的变量定义了在多维数据空间内数据可自然分类的坐标系。重新定义的好处是通过正交基实现降维的目的。PCA方法将数据的相关性浓缩成一个单独变量从而找寻数据集的真实维度。考虑到牺牲降低描述变量的精确性,但有巨大的可能性用来数据维度的降低。这就使得PCA方法是一强大和灵活的分析方法。
在这一章节中,我们会探索过程基本的数学描述以及讨论在宇宙学中用这个分析方法的好处。然后我们会应用这个分析方法到金融时间序列中作为一对市场结构和交易策略的初步探索。
3.2 基本方法的数学描述
3.2.1 几何解释
在原数据集多维空间中,由它的列和行向量定义,PCA寻找新的坐标轴用来最好地概括数据。PCA起初选择最好地概括数据的轴,接下来再选择最好地概括数据的轴,一直到最后数据变量能被解释为止。第一轴,或“最适合”轴,定义为和原始数据点平方欧氏距离之和最小的轴。这个在图3.1可视化表示。所以这个第一个新的轴在正常的回归中是一最好的拟合线。下一个最好的或者是第二个新的轴,将会与第一个轴拟合成一到它最小化欧式距离平方和的最好的轴。第三个轴将会拟合到前两个轴形成的平面的最小欧式平方距离的最好的轴。我们再次考虑图3.1。最小化欧式距离平方和显然与最大化到新轴的投影平方和等价。这个反过来就能解释为最大化数据的方差。我们下结论:每一个新的轴是可以解释为最大化数据集中剩余变量平方和所形成的轴。因此,PCA可以用最佳拟合正交轴代替原数据轴从而占剩余变量尽可能多。
图3.1 PCA的简单可视化表示
这个过程的数学形式被Murtagh和Heck(1987年)证明,这会引导接下来的解释。如果是PCA过程的第一个轴,然后原数据集中的数据投影,在这个轴上由给出。作为先前规定,我们的坐标轴必须最大化平方预测由以下式子给出:
这个式子将会是无界的除非一个适当的限制用在上。因此我们加一个限制条件:让的长度为1,即。现在令加上限制条件,我们现在就需要最大化
为了解决这个优化
全文共20011字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144380],资料为PDF文档或Word文档,PDF文档可免费转换为Word