登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 地理科学类 > 大气科学 > 正文

使用严谨而定量的因果分析探索大数据外文翻译资料

 2022-11-30 16:52:34  

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


使用严谨而定量的因果分析探索大数据

梁湘三

南京信息工程大学,邮箱:san@pacific.harvard.edu

摘要:

因果分析是一个能够解决数据复杂性的强有力的工具,并为达成我们常说的更好的平台设计、有效的交互作用以及服务管理等等提供指导。这一领域的进展必定会为数据科学带来极大的好处。这篇文章我们先介绍物理学领域因果的最新进展,然后再讨论严谨而又定性的因果分析。最终推倒出来的公式在形式上很简单,只涉及到简单的的统计量样本协方差。有个推论就是因果意味着相关,但是反过来并不成立,这解决了哲学上关于因果和相关由来已久的争论。对大数据分析的可适用性已经用隐藏过程据称生成的时间序列来证明。作为示范,我们对中国、美国和日本GDP数据进行了初步应用,表现出中美日之间在特定时期的微妙的关系。

关键词:因果,大数据,信息流,时间序列,因果性网络

1引言

在二十一世纪,我们进入了一个数据暴涨的时代,怎样去分析这些数据已成为科学家急需解决的难题。这就提出了很多富有挑战性的课题,其中有一个是因果推论,在很多不同的科学学科甚至包括哲学中都是一个重要的科目。对数据科学来说,这将会解决有着前所未有发展的数据集的复杂性,然后建立有利于更好的管理和服务的平台。

然而,因果分析是一个很难的问题。奥尼尔和斯科特在他们的著作《数据科学的探讨》中是这么评价因果分析的,“无论是从理论或者是实践角度来看,因果分析最大的一个统计学难题是在两个变量间建立一个因果关系”。在过去的几年中,由于大数据科学的产生,使得这一领域受到很多人的关注。已经提出了很多经验主义或半经验主义的形式体系,而且这些体系在一些特殊的环境中都表现的很好。

最近,为解决这个难题科学家们已经提出了一个严谨而又定性的分析方法。研究发现,以前被证明为一个统计假设检验的因果分析是一个物理问题。因果的确是个有着严谨基础的物理概念。很多传统的方法不能解决的地方用梁公式14就很好解决了。这也明确的解决了哲学上关于相关和因果的争辩,而且在很多实际问题上有很好的应用。

然而,在大数据研究领域这部分工作还没有人去做。虽然我们应该用传统工具来武装自己,新的方法,尤其是像因果分析这样有着深厚物理根基的方法,肯定会促进新科学的发展。这也是为什么我们会把新研究的因果分析引入到数据科学的原因了。这也是这篇文章的主要目的。

下面我们会先回顾一下公式,公式的推导以及主要结论。为了检验它在解决大数据问题上的实用性,在第三部分中我们在极端情况下据称地生成一些序列,尤其是一些代表隐藏过程的序列。举个例子,第四部分是因果分析对中美日关系研究的初步应用。第四部分会对这个研究进行概括。

2理论发展和应用。

历史上格兰杰曾经将因果分析作为统计假设检验,现在被称为格兰杰因果分析。另一方面,另一个真实的物理概念,信息流,或者我们称之为信息传输,也已经发展了超过三十年。大概是因为它会在文献中不时地出现。信息流在各门学科中都有广泛的应用,人们逐渐意识到,这正是因为这个领域的核心部分和因果关系有着内在的逻辑联系。我们可以用一个已经成立的结论来进一步的证明这个观察结果,也就是格兰杰因果关系分析和最流行的信息流的经验性测量(也就是传递熵)其实是等价的。

这样,因果关系研究的两条主要工作方向最终合并到一块去了。然而,相应的公式,在许多应用中早被发现无法很好的符合事实,甚至可能产生虚假的因果关系。证明是基于以下观测。

如果一个变量的演变,我们假定和无关,那么到的因果就消失了。之后我们会将其称为零因果定理。最近,斯米尔诺夫[8]对此进行了系统性的调查,并得出结论,在很广泛的情况下他们并不能验证该理论,在[9]中也有类似的结果。为了响应新的大数据科学的号召,我们应该深入了解并重新仔细审视问题。

因为因果关系可以被信息流定量的测量,而信息流又是一个真实的物理概念(不只是有着统计学的意义),梁认为应该在严格的基础上制定因果关系,而不是把它作为一个假设[ 3 ] [ 10 ]。此外,上述原则应作为一个已经被证明的定理,而不是在应用中有待验证的一些东西。本着这种精神,梁[ 10 ]提出了一个随机系统的形式。

(1)

(2)

其中(,)是标准Wiener过程的一对矢量,和是(,)的可微函数。这样就得到以下的理论。

定理2.1(梁,2008)

对于(1)和(2)的动力系统,到的信息流是

(3)

其中E是指数学期望,是指的边缘概率密度

定理2.2零因果定理(梁,2008)

如果在(1)和(2)的系统间, 、、都和无关,那么

注意这两个都是可以被证明的定理(论据来自[10]),特别的是,第二个定理正是零因果定理。如果只有两个时间序列,它们之间的信息流可以通过求最大似然估计得到。

定理2.3(梁,2014)

给定两个时间序列和,假定在线性的模型中,从到的信息流速率的最大似然估计为

(4)

方程中,是和的样本协方差矩阵,而是和由欧拉前插得到的序列的样本协方差

注意方程(4)中T是指信息流的最大似然估计,而且,严格的来说应该bear a hat。我们滥用这里的符号,从现在起,只有方程(4)将被使用,这样就不会出现混乱。也就是说,方程(4)将是和之间因果关系的定量度量。更确切地说,T的绝对值代表着因果。当,

就是的因;当,就不是的因。

信息流的公式使得因果关系变得十分简洁。历史上有关相关和因果关系的争论由来已久,我们可以把其转化为一个包含相关系数的公式:

(5)

其中r是相关系数,而。我们可以发现,如果r=0,那么;但是,,r就不一定为0。这就意味着,有因果就一定相关,但是相关不代表有因果。

因果关系可以归一化,以揭示其相对精度,详见[4]。也可以对等式(4)进行统计显著性检验,参考文献[3]。

方程(4)已经通过传统的格兰杰因果分析失败的试金石问题得到验证,也被应用于许多现实世界的问题,取得了显著的成功。在这些应用中,二氧化碳与全球变暖的因果关系研究[11], 发现二十年来二氧化碳浓度上升确实导致近期全球变暖,因果关系是单向的,即从二氧化碳到全球大气温度。然而,在1000年(或更长)的规模下,因果关系完全相反,即全球变暖导致二氧化碳增加,这与最近从南极洲的冰核数据推断的一致。此外,来自北半球的人为气体排放主要导致南半球变暖。

另一个应用是从YAHOO下载的美国股票价格的几个序列。基本上每个重要的因果关系都可以根据常识来解释。例如,福特与沃尔玛的CVS相比,便宜店连锁店的因果关系要大得多,因为在美国,人们依靠机动车在沃尔玛商店购物,而CVS店可能步行。更深入的研究表明,因果关系通常随时间而变化。对于GE和IBM来说,它们似乎并没有显著的因果关系。然而,如果我们进行运行时间分析,发现从1971年开始,在70年代从IBM到GE有着非常强大的几乎单向的因果关系。这个确定的因果结构变化揭示了我们一个关于“七个小矮人和巨人”的故事。六十年代,GE曾经是美国联邦政府以外最大的电脑用户,为了避免依赖IBM,它开始制造大型计算机以及其他六家公司,与IBM巨人竞争电脑市场。但在1970年,GE出售了其计算机部门。从1971年开始,它不得不依赖于IBM。这就是为什么从1970年到1971年有这样一个突然的单向因果关系跳跃。虽然这个故事几乎已经被遗忘了,但这个完全基于对几个股价时间序列的分析真的是很棒。

3验证

3.1使用一对过程生成的系列的验证

考虑从两个回归过程产生的序列,在传统上经常用于测试因果关系分析,

(6)

(7)

其中,是独立的正常过程。 首先让。对于不同的和,用0和1之间的随机数初始化系统,生成50000个值的两个系列,然后用公式(4)计算因果关系。 结果列于表1

对于案例I生成的系列如图1所示。通过目视检查,它们是相关的,并且看起来相似。这并不奇怪,因为Y驱动X,因此X遵循Y。关于因果关系,由于= 0,Y不取决于X,因此理想的将消失。这里以90%置信水平,每次迭代,不能被看作与零不同。相反,是巨大的,清楚地表明单向因果关系。这是高度相关系列的一个例子,导致一个方向的零因果关系。

对于情况II,,因此X和Y与彼此无关。令人信服的分析应该为两个方向产生零因果关系。 实际上,在90%的水平上,它们和零没什么区别。

为了测试(4)的有效性,我们设计了一个具有弱耦合的情况(情况III):。等式X和Y基本上是独立的,但理论上确实存在因果关系,尽管可以忽略不计。值得注意的是,我们的分析产生了两个显著的因果关系,即它们都是非常小的,通过了显著检验。

为了看看在噪声中是否依然可以检测到很小的因果关系,我们将和放大十倍:,重复情况III。这导致:,,即两个信息流速尽管可忽略,但是在90%置信区间上很显著,正如预期一样。

表1(6)-(7)生成的系列的绝对信息流量,他们各自的置信区间在90%的显著性水平。 单位每次迭代次

x蓝色y 红色

n(500步内)

图一:表一中案例一所生成的序列

3.2在存在隐藏过程中使用系列进行验证

我们的因果关系分析分析的是两个时间序列,如上所示,对于通过两个过程生成的序列是完美的。然而,在实际的问题上,一序列的时间序列可能是很多过程的结果,而且我们可能不知道过程是甚么,甚至不知道这些过程的存在。在这种情况下,(4)还能工作吗? 换句话说,我们的分析能否在隐藏的过程存在的情况下运行良好? 这是传统分析不能解决的一个问题。

考虑以下回归过程中X和Y形成的一对序列:

(8)

(9)

与(6)-(7)不同,这里X和Y都取决于第三个变量Z。

假设我们不知道Z的存在,我们像以前一样对X和Y系列进行因果关系分析。重复表1中的实验,并列出表2中计算的因果关系。

结果正如预期的那样。例如,情况I是单向因果系统,计算的绝对信息流速证实了这一点; 如果II X和Y是独立的,并且计算的因果关系在两个方向都基本为零;对于第三种情况,因果关系确实存在,尽管它们非常小。总而言之,即使在极端情况下,我们的因果关系分析能够处理隐藏进程中的序列。然后可以用于通用的数据分析,因此有望在大数据的新科学中发挥作用。

4.论初步应用

作为示范,我们现在来看看美国、中国和日本三大经济大国的GDP。数据来自世行,从1960年到2014年。请注意,我们不打算对国际双边关系进行研究,这需要深入调查相关的经济与政治,以及更可靠的数据和更精细的时间分辨率; 我们即将提供一个例子来演示上述新因果分析工具如何使我们能够提取基于数据的信息,否则这些信息很难被(如果不是不可能)提取。

自从1960年至2014年三个国家的国内生产总值飙升以来,我们选择检查其年增长率。 这些增长率如图2所示。通过检查数据,我们可以看到美国和日本的GDP增长高度相关。除此之外,很难说出三个国家可能存在的因果结构。现在我们用严格的因果关系分析来帮助。

上一节的验证允许我们检查三国之间的关系不管世界其他国家,特别是欧洲的GDP数据如何,尽管我们知道后者的影响确实存在。由于我们需要做协方差估计,我们选择一个40年的窗口来建立集合,然后做一个运行时间估计。这产生的1980 - 1995年的时间段,可以用来计算因果关系。(4)的直接应用产生了这些因果关系,我们在图3中绘制。

首先看图3(a)。由于小组合,大部分值在80%的显著性水平上并不大。但是一些值,特别是是很大的。也就是说,在这个时期,中国对美国经济的影响比美国对中国经济的影响更大。考虑到中国在这个时期对西方国家还不够开放,这是有道理的。图3(b)表示的也大致一样。不过图3(b)与图3(a)完全不同的是,90年代初,日本对中国的影响力大,超过了相反方向的因果关系。这也是很有道理的, 90年代初,由于政治原因,西方对中国实施了严格的制裁,但日本虽然被称为西方主要国家,但并没有加入。在那个特定的时期,中国就不得不依赖日本,导致日本到中国的很大的因果关系!

对于图3(c),进化模式也是显着的。正如我们所说,日本的GDP增长历史与美国高度相关。什么是高度相关?我们知道一个单向因果关系,从序列到另一个序列,会导致一个相关性,但是相反方向的因果关系或相互因果关系也会产生这样的关联。这个图表显示,这三种可能性都存在于这个特殊的应用中,而且很好地跨越了不同的时期(大约在1980-1987,1987-1990,1990-1995)。这是关于相关性与因果关系的一个很好的例子,尽管图3(c)中的结构的解释需要我们更多的了解有关两国的政治和经济学,这就留给未来的研究。

<p

剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[25636],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图