大数据背景下的空间分析与建模文献综述
2020-04-16 13:41:37
文 献 综 述
1.引言
大数据时代的到来,使数据成为重要的生产力。空间数据是大数据的一个重要组成部分,它具有来源繁多,种类复杂,数据结构复杂、数据关系复杂等特点。本课题研究在大数据背景下的新的空间分析手段以及如何有效建模,使数据转化为有效信息成为可能。本课题着眼空间数据分析空间大数据面临的多种问题,剖析空间大数据蕴含的价值,探讨从空间大数据中挖掘知识的技术,以及知识变为数据智能的途径。
2.研究背景与现状
大数据是时下流行的名词也随着科技的发展进入了各行各业,人们对大数据不同的认识引出了它的不同定义。IBM提出大数据应具备5V特征属性,即Volume(数据体量大)、Velocity(数据的更新速度、处理速度快)、Variety(具有多样性)、Veracity(真实性)、Value(具有价值)。
数据挖掘在大数据时代扮演着十分重要的角色,大数据必然与数据挖掘相结合。数据挖掘是从大量数据中挖掘有趣模式和知识的过程[1]。1989年8月, 在美国底特律市召开的第一届国际联合人工智能学术会议上, 首次出现了从数据库中发现知识(knowledge discovery in database, KDD) 的概念。它针对的一般是非空间数据, 其研究和应用的成果势必对空间数据的利用造成影响,引导地球空间信息学向更深的层次发展[2]。
空间分析是对空间数据的一种利用。广义上的空间分析指GIS中一切用以提取地理空间信息乃至时空分布、组合、联系和发展的知识的、涉及空间位置要素和空间关系的分析[3]。传统空间分析的一个重点是空间建模,即计算模拟,考虑的是如何建立一个匹配度或准确度高的模型,但是大数据时代数据的极大丰富使人们可以逐渐摆脱对模型的依赖。早在1994年,李德仁院士就提出了 ”Knowledge discovery from GIS”的理念,建议从纷杂的空间数据中挖掘隐含的模式、规则和知识[4],并针对空间数据挖掘中存在的随机性和模糊性问题系统地提出了云模型、数据场、地学粗空间等挖掘方法[5]。可以说,大数据GIS的特征之一就是空间分析方法由模型驱动逐渐转变为数据驱动。大数据 GIS 的空间分析不仅要有建立模型的能力,更要有发现新模式、新知识甚至新规律的能力[6]。因此,从某种程度上说,空间数据挖掘(spatial data mining, SDM)就是大数据时代里的GIS空间分析与建模。
当前空间数据挖掘的研究方向很多,在此简单介绍三种:
1)空间关联规则的挖掘
空间关联规则是空间实体之间同时出现的内在规律,指空间实体间相邻、相连、共生和包含等空间关联规则,发现的知识采用逻辑规则表达。空间数据库的对象之间存在大量的关联关系,为了有效地检索出有用的关系,需要定义关联规则的支持和可信度。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则,需要给定2个阈值:最小支持度和最小可信度。目前应用于数据挖掘的算法有许多,模糊遗传算法(Fuzzy Genetic Algorithm, FGA)的特征决定了它能很好地解决混沌、随机和非线性等问题[7],为空间关联规则的提取提出了一种新的思路。