一种新的仓库数据智能分发方法外文翻译资料
2022-08-15 16:37:56
英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
一种新的仓库数据智能分发方法
摘要
随着数据量的不断增长,数据存储系统已经从平面文件系统发展到关系数据库管理系统、数据仓库(DW)和分布式数据仓库系统。提出了一种新的分布式数据仓库模型。该模型基于一种新的方法,用于数据仓库的智能分发。整体模型被命名为智能分布式数据仓库(IDDW)。该模型是基于自顶向下的分层设计方法建立的分布式数据仓库。IDDW的构建过程从识别可能构建DW的各个位置开始。最初,一个位置被认为是IDDW的最顶层,其中DW是建造。此后,可在任何级别的任何其他位置建造DW。文中还提出了一种将有关数据从任何上层DW传输到有关下层DW的方法。本文还介绍了IDDW建模、基于建模的IDDW体系结构、IDDW的内部IDDW的组织,IDDW中的所有操作都通过它执行。
- 介绍
Inmonin给出了DW的基本定义,数据仓库是一个面向主题的、集成的、时变的、非易失性的数据集合,用于支持管理层的决策过程。一般来说,一个组织从集中式DW系统开始。这个集中的数据仓库负责存储整个组织的数据,回答所有的查询和决策。对于一个组织来说,随着要应答的数据量和查询数的增加,存储数据的分布需求随之产生,这反过来又发展了分布式数据仓库的需求。当一个组织的规模随着其分支机构数量的增加或分支机构的规模的增加而增长时,对分布式数据仓库的需求也随之增加。对于分布式数据仓库的数据分布和构建,许多研究者提出了多种方法。其中一种方法是以分层方式分布数据,称为分层分布式数据仓库。对于构建分层分布式DW,使用自顶向下或自下而上两种设计方法。使用集中数据仓库系统,这个集中的数据仓库负责存储整个组织的数据,回答所有的查询和决策。一般来说,一个组织开始对于一个组织来说,随着要应答的数据量和查询数的增加,对存储数据的分布的需求会产生,而这反过来又发展了分布式数据仓库。当一个组织的规模随着其分支机构数量的增加或分支机构的规模的增加而增长时,对分布式数据仓库的需求也随之增加。对于分布式数据仓库的数据分布和构建,许多研究者提出了多种方法。其中一种方法是在层次结构中分配数据时尚称为分层分布式数据仓库。对于构建两种设计方法之一的分层分布式数据仓库,使用自上而下或自下而上。自下而上的方法是当设计的目标是整合现有数据库系统时是合适的。自下而上的设计从单个局部概念模式开始,过程的目标是将局部模式集成到全局概念模式中。在自顶向下设计方法中,首先构建数据仓库,然后从数据仓库创建数据集市。自顶向下的设计方法通常用于非常大的系统。自顶向下设计方法的一个例子是,国家级的数据仓库分布在州一级的数据仓库中,州一级的每个数据仓库分布在市一级的数据仓库中,以此类推,直至地方集市一级。这样做的好处是本地查询由本地应答,而全局查询由整个系统应答。本文提出的IDDW就是利用这种方法来构建的。
设计和建造IDDW的步骤如下:(1)选择一个主题,(2)框架,N层的层次结构中的一个主题,(3)层次结构中的N层标识,(4)层次结构中每个层次的位置标识,(5) 考虑到已识别位置的层次结构的形成,(6)在已形成的层次结构内开始的DW的初始、位置和数量,(7)存储在每个DW中的数据,(8)在任何位置合并任何新的DW构建,(9)在新的DW构建中传输与位置相关的数据/层次信息该位置和(10)将位置的本地数据存储在DW中(如果该位置可用)。本文的第3节介绍了详细情况。本文的其他部分如下:第二部分介绍了相关的工作;第三部分介绍了IDDW的建模;IDDW的体系结构;IDDW的数据模型;IDDW的内部组织结构,包括全局MDS、局部MDS等,并借助这些结构执行IDDW中的所有操作;采用三种算法构造N级层次结构IDDW;第四节以IDDW为例,展示了印度8级层次结构的教育体系;第五节在8级层次结构的基础上,开发了实验装置。一个程序是用JAVA编写的,后台是SQL。实时数据在系统中通过首页输入,并智能地存储在系统中的相关数据仓库中,在第6节中,在实验的基础上对IDDW进行了各种观测和分析。
- 相关工作
分布式数据仓库通过提供一致和单一的数据视图,为决策者提供便利。它这样做是为了避免数据物理上分布在不同分支的多个系统中的多个数据仓库。许多作者提出了许多开发分布式
数据仓库。Inmon在[9]中提出了一种构建分布式数据仓库的方法。该方法假设本地和全局数据仓库的存在,其中每个仓库中存储的数据都是互斥的。本地数据仓库包含感兴趣的本地数据,而全局数据仓库包含整个组织中的公共数据以及从各种本地数据仓库集成的数据。Inmon关于本地和全局数据仓库之间数据的互斥性的假设似乎是不切实际的。White在[14,15]中提出了一种称为“两层数据仓库”的方法,它是集中数据仓库和分散数据集市的结合。诺曼等人。在[15,14]中提出了一种分布式数据仓库的体系结构。它使用自顶向下的设计方法,提出了两个基本问题:碎片化和将碎片分配到不同站点。作者在[15]中提出的工作是[14]中的扩展工作。他们通过描述分布式数据仓库系统架构组件的功能,给出数据仓库的关系数据模型定义,并给出一个水平分段算法来扩展它。在[24]中提出了分层分布式数据仓库(HDDW)。HDDW将本地数据集市集成到一个层次结构中。HDDW使用自下而上的设计方法来构建仓库。在需要将大型中央数据仓库作为分布式数据仓库(自顶向下方法)的情况下,此方法是无用的,因为没有使用分段模式。在文献[2]中,设计了一种新的数据仓库剥离(DWS)技术,这是一种针对关系数据仓库的循环数据划分方法。DWS技术的局限性在于它在大数据量的数据仓库中不起作用。因此,研究人员提出了一种新的方法,称为选择性加载来处理数据仓库中的大尺寸数据。所提出的选择性加载技术探索了这样一个事实:存储在每个节点中的事实表行的子集只与大维度中的一小部分行相关,而与所有行无关。因此,其思想是只在每个节点中存储与该节点中存储的事实行相关的维度行,而不是复制整个维度[5]。这个方法面临一个问题,因为随着时间的推移,数据的大小会越来越大,必须再次应用循环分区方法,通过所有节点逐行分区事实和维度表。文献[19]提出了一种新的射频识别(RFID)分布式数据仓库模型,称为RFID-CHDDW。顾名思义,概念层次分布式数据仓库(CHDDW)是在概念层次的基础上,自下而上的分层结构,它综合了数据集市和分布式数据仓库的特点。文献[20,6,13,21]提出了一种基于网格的分布式数据仓库方法。其他一些作者提出的方法有[23]使用ASM设计分布式数据仓库,[4]提出了一种新的基于Petri网的数据仓库分布式管理分析模型,并[12]提出了一种基于成本的片段分配和复制算法的数据仓库分散策略。
本文提出的IDDW采用自顶向下的设计方法。但是,与其他使用自顶向下设计方法的分布式数据仓库相比,它有很多优点。IDDW相对于其他DW的优点是:第一,不需要在每个位置放置DW,而是可以根据该位置的需要随时在任何位置构建DW;第二,IDDW体系结构使得在系统中注册的每个用户(即IDDW中存储在DW中的注册用户的数据)具有唯一的标识;第三,在系统上执行的操作不是特定于位置的,而是可以从系统内的任何位置执行的;第四,拟议系统的内部组织使数据从一个DW传输到另一个DW成为可能。
3. 拟议工程(IDDW)
构建IDDW的过程从选择主题开始。选定的主题应使其可以分为子主题。每一个这样的次主题都应进一步分为次主题等。
一旦选择了合适的主题,下一步就是在N个层次的层次结构中构建主题。框架设计要记住两点:第一,从上到下读取层次结构中的任何层次结构时,可以将任何用户标识为唯一的;第二,可以在任何阶段的任何级别的任何位置根据需要构建数据仓库。
在选择合适的主题和框架后,确定了N个层次的层次结构。随着级别的确定,每个级别中的不同位置也被确定。通过这样做,每个层次中的不同层次和不同位置都是已知的,这有助于形成整体的N级层次结构。
整体结构的形成始于仅在最高层层次结构的位置构建一个DW。目前,该数据仓库作为一个集中式数据仓库,存储与所有级别相关的所有记录(即所有位置的本地数据和与公共表相关的总体数据),直到在任何其他级别的其他位置形成任何其他数据仓库。结构中的任何DW都存储三种类型的数据:第一种是唯一标识系统中用户的数据;第二种是本地位置的数据;第三种是元数据。每个DW中使用一个公共表来存储第一类数据,而其他表用于存储第二类数据。公共表还用于在每个DW中以星型模式排列的结构的其他位置合并任何新的DW构建。它通过将新构建的DW的公共表中的数据(记录)从其层次结构的下一个更高级别的可用DW中传输来实现。公共表的内容是以这样的方式生成的,这样它就能够执行所有所需的任务。
3.1IDDW建模
在本节中,我们提出IDDW建模。建议的建模有助于在IDDW中的任何位置对DW进行编号。使用建议的建模给任何DW“D”的数字是DLJwhere“L”上标表示DW已构建位置的级别号,下标“JL”表示DW已构建位置的层次结构(从顶部)。一所提出的模型使用了编号为1、2和3的三个方程。式(1)对IDDW中任何位置的生成时的DW进行编号。式(1)中的DLJUsed是通过从式(1)中递归计算JL得到的。(2) 和(3)。这三个方程如下:一IDDW四分之一fDLJg一eth;THORN;1fJLg四分之一fJ Ig一级eth;THORN;2J0 1/4空eth;THORN;3
D是一个数据仓库。
L是级别号,即{1,2,3,hellip;,N},其中1是最顶层,2是从顶层到N的第二层。
I是一个整数变量,从1到KL变化。
这里,KL表示可以在层次结构中的任何特定级别L上构建DW的预先标识的位置数。
JL是一个整数,取决于L的值,并使用Eqs递归计算。(2) 和(3)。DLJrepresents,在特定级别L的某个位置上生成的数据仓库编号。基于提出的IDDW建模方法,采用Eqs。(1-3)可以形成IDDW的总体架构。下一节将详细介绍建筑的形成和解释。
3.2 IDDW体系结构
在本节中,我们将介绍一般的IDDW体系结构。本节还详细介绍了有关体系结构的说明。基于前一节中提出的建模的IDDW架构如图1所示。它本质上是一个等级,有N个等级。每一层从上到下依次标记为1级、2级等直到N级作为最后一层。IDDW体系结构中的每个级别L包括预先标识的位置的KL个数。每一层的层数和位置的数目都是根据选定的主题来确定的,将为其形成IDDW。IDDW体系结构首先在级别1中的唯一位置构建一个DW。因此,我们得到L=1,并使用等式。(2) (3)我们得到JL/1。因此,通过使用等式(1),分配给该DW的数字是D11。数字D11表示我们已经在1层建造了一个DW。
根据所选主题及其框架,第2层有K2个位置。这些是根据特定位置的需要可以构建DW的位置。在这个级别的任何位置构建的任何DW都将再次使用Eqs进行编号。(1-3)。当它是2级时,我们得到L=2,JL的值集为{11,12,13。。。1 K2}。图1显示,在第2级,构建了“K2”个DW。因此,DW的K2数中的每一个都从D211编号到D21k2。任何这样的数字,例如D21k,都表示在k2位置构建的DW属于级别2。它还表示DW位于层次结构的location下,DW D11在级别1可用。2根据选定的主题及其框架,第2层的每个位置在第3层有K3个位置。根据需要,可以在这些位置中的任何一个位置建造数据仓库。对于2级中的每个位置,K3的值可能会有所不同。在这一级别形成的DW的编号与在第2级所做的相同。任何在第3层编号的DW都是d31k3。这个数字表示DW位于级别3的k3th位置,它位于级别2的DW D21kat和级别1的DW D11位置下的层次结构中。22IDDW中的所有级别都遵循类似的过程,从上到下一直到N 1级别。为了实现在IDDW中注册的每个用户的唯一性,IDDW的最后一个级别(即N级)的构建是不同的。通过执行设计好的生成三位数ID的预定义方法,串行生成唯一的三位数ID。该ID对于级别N 1的每个位置下的所有KN位置都是唯一的。同一层次结构中的任意两个用户,从上到下到N 1级的所有位置都是相同的,因此所有字段都是公共的。在级别N生成的唯一三位数ID区分这两个数字。对于存储,关于每个位置的层次信息和位置的本地信息,在该位置可用的DW中,IDDW中的每个DW都需要一个适当的数据模型。
6. 观察与分析
在本节中,我们将讨论有关IDDW的各种观察结果。这些观察是在案例研究的基础上提出的。在为案例研究而实现的架构中输入用户数据时,也根据观察到的结果进行观察。关于该系统的一些观察结果如下:
6.1能力
这个系统足以存储和链接数百万条记录。系统可以通过每个DW(即在任何级别的每个位置构建的DW)中的公共表来实现。由于每个生成的DW中也有其他表,因此它能够存储生成DW的位置的本地数据。它的优点是,地方一级的决策过程变得迅速。该系统还能够通过首页以非常方便的方式获得用户输入。
6.2适应性
这个系统适应性很强。它的适应性在于,定义在其中的任何位置都可以根据需要构建自己的DW。在为系统设计的内部组织的帮助下,这是可能的。
6.3可利用性
在用户输入的位置,DW具有高可用性,开销最小。它的优点是能够快速地将数据存储在所需的数据仓库中。随着越来越多的数据仓库建在各个IDDW级别的不同位置,可用性进一步提高。对于实验工作实现的层次结构也可以看到这一点。在层次结构中,随着更多安装了数据库的计算机连接到交换机端口,DW的可用性会增加。计算DW的可用性百分比,并绘制图10所示的图。
percentage的值显示了迄今为止构建的DW中任何一个DW失败时DW的可用性。这意味着DW从顶部开始在层次结构中的各个级别的位置构建。从图中可以看出,在层次结构的更多层次上,数据仓库的可用性百分比并没有随着数据仓库的增加而增加多少。
6.4能力
该系统能够跟踪用户输入的每一条记录。这是通过全球MDS实现的。全局MDS始终保持关于存储每条记录的DW的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[413173],资料为PDF文档或Word文档,PDF文档可免费转换为Word