大数据建模中基于大随机矩阵的未来网格数据驱动态势感知方法外文翻译资料
2022-11-27 14:42:50
英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
大数据建模中基于大随机矩阵的未来网格数据驱动态势感知方法
XING HE1 , LEI CHU 1 , ROBERT CAIMING QIU 1,2 , (Fellow, IEEE),
QIAN AI 3 , (Senior Member, IEEE), AND ZENAN LING 1
1 Department of Electrical Engineering, Research Center for Big Data and Artificial Intelligence Engineering and Technologies, State Energy Smart Grid Ramp;D
Center, Shanghai Jiaotong University, Shanghai 200240, China
2 Department of Electrical and Computer Engineering, Tennessee Technological University, Cookeville, TN 38505, USA
3 Department of Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
Corresponding author: Robert Caiming Qiu (rqiu@ieee.org)
This work was supported in part by the NSF of China under Grant 61571296 and in part by the NSF, U.S., under Grant CNS-1619250.
摘要:当任务与态势感知,数据驱动的方法,适用于复杂的网格与大量的数据集。然而,有效地将这些海量数据集转化为有用的大数据分析是一个挑战。为了解决这一挑战,本文基于随机矩阵理论,提出了一种数据驱动的方法。该方法将大规模数据集建为大的随机矩阵,并且它是无模型的,不需要关于物理模型参数的知识。特别是大数据维数N和大时间跨度T分别从空间方面和时间方面得到了良好的结果。美好的事情在于,由于这些LES的中心极限定理的概率最新突破,这些线性特征值统计量(LES)是从数据矩阵构建的,以便在非常一般的条件下遵循高斯分布。大量的案例研究,包括模拟数据和现场数据,为验证新算法给出出了证明。
关键词:大数据分析;线性特征值统计;随机矩阵理论;情景意识;统计指标
1 导言
情境意识(SA)对电力系统运行具有重要意义,SA的重新考虑对未来电网是至关重要的[1]。这些未来的电网总是规模庞大,拓扑结构复杂。在一项新颖的监管下运作,其管理模式有很大不同[2]。另一方面,数据越来越容易获取,对数据的驱动方法的需求对于未来的电网而言变得理所当然。为了实现这一愿景,需要紧急解决以下问题:
bull;电网中有大量数据。所谓的维度诅咒[3]不可避免地发生。
bull;提取大数据分析的资源成本(时间,硬件,人力等)应当是可容忍的。
bull;对于海量数据来源,通常存在不切实际的“不良”数据,例如不完整的,不准确的,不同步的和不可用的。对于系统操作,决定如何继续,应该是高度可靠的。
本文是基于我们过去几年的前期工作。详情请参阅第I-B部分。受数据挖掘的启发,我们的研究线是基于高维统计。通过高维度的形式,数据集是一种大型随机矩阵的表示。这些数据矩阵可以被看作是高维向量空间中的数据点-每个向量都很长。正如“大数据网格现代化分析”专刊中所证明的那样[1],智能电网的数据驱动方法和数据利用是目前压力最大的话题。这个问题与本文立意最相关。讨论了几个SA主题,我们强调异常检测和分类[4],[5],有效成分的估计,如光伏装置[6],[7]和使用实时数据的在线暂态稳定性评估[8]。另外,还有一些研究侧重于广域监测,保护和控制(WAMPAC)的改进,PMU数据的利用[9]-[11]以及故障检测和定位[12],[13],如谢.等人[14]。基于主成分分析(PCA),通过引入一个简化的维度,提出一个早期事件检测的在线应用程序,如林.等人[15]。他们的工作与这篇论文有着特殊的联系,基于奇异值分解(SVD),研究了电压稳定不稳定现象的准稳态运行问题。
1.1 本文的贡献
随机性是未来电网的关键,因为电压和电流的快速波动无处不在。通常,这些波动表现出高斯统计特性[15]。本文的中心兴趣是使用随机矩阵理论(RMT)的框架来模拟这些快速波动。由于线性特征值统计量(不到)的中心极限定理在概率上的最新突破[16,Ch. 7],使得这种新算法成为可能。参见[17]最近的评论。
1)从电力系统的基本公式出发,理论证实了把复杂网格建模为大型随机矩阵的有效性。该数据建模框架将RMT与电力系统分析结合起来。这部分本质上是基础。
2)本文研究了技术路线和应用框架,数据处理及相关程序,评估体系和指标集等众多基础问题,包括与传统方法相比的优势。
3)本文对基于RMT的方法和基于PCA的方法进行了比较。
4)在大数据分析的基础上,本文研究了电力系统应用领域:异常检测与定位,经验谱密度检,灵敏度分析,统计指标体系及其可视化,还有对异步数据的鲁棒性。
1.2 与以前的工作的关系
工作[2]是第一次尝试将RMT的数学工具引入电力系统。后来,许多论文都证明了这种思想的强大性。圆环定律和M-P定律被认为是统计学基础,并提出了平均谱半径(MSR)作为高维指标。接着我们进入第二阶段论文[18]研究上述框架下的相关性分析。级联矩阵是感兴趣的对象。它由基本矩阵和因子矩阵组成,即= [: ]。为了寻找敏感因素,我们计算基于这些级联矩阵的的先进指标。这项研究有助于探测和定位,减少线损和防盗。基于相同的理论基础,对输电设备进行分析[19]。论文[20]是对于集研究的第三步。基于集合,建立了一个统计和数据驱动的指标体系,而不是关于其确定性和基于模型,并以高维度来描述该体系,强调的是针对空间数据错误的稳健性恰恰是核心领域的数据损失。
1.3 基于RMT的方法的优点
对数据驱动方法进行分析,不需要事先知道系统拓扑、单元操作/控制机制以及因果关系等。与基于PCA的经典数据驱动方法相比,基于RMT的方法具有一些独特的优势:
1)电力系统的海量数据集处于高维向量空间;时间变化(T采样时刻)和空间变化(N个网格节点)可同步观察。从上述时空变化中提取信息是一种挑战,不符合大多数经典统计算法的先决条件,可以通过它们的比率来统一时间和空间,而RMT可以在数学上严格地处理这种类型的数据。
2)统计指标是以矩阵条目的形式从所有数据中产生的,这对于主成分来说并不是真的;协方差矩阵的秩是未知的。数据的庞大数量增强了对数据的最终决策的鲁棒性(不准确性,损失)研究的难度,以及在经典数据驱动方法中造成了的不可避免的挑战,例如错误累积和虚假相关性[18]。
3)对于统计指标,预先获得理论值或经验值。统计指标如遵循高斯分布,其方差是有界的[21],并且对于给定的数据维数N,例如N = 118,以O(N-2)的顺序非常快地衰减。
4)本文提出的方法可以灵活地处理异质数据,通过矩阵运算实现数据融合,如矩阵的分块[2],和[22],积[22]和级联[18]。数据融合由最新的数学研究指导[16,Ch.7]。
5)只有特征值用于进一步分析,而特征向量被省略。这样能拥有更快的数据处理速度和需要更少的内存空间。尽管丢失了一些信息,但特征值[23]中仍然包含丰富的信息,特别是那些异常值[24],[25]。
6)特别是,对于某个RMM,可以通过设计测试函数来构造形式的各种形式的,而不引入任何系统错误。每个与滤镜类似,可以提供独特的视角,因此该系统被逐一理解。此外,可以使用技术检测和跟踪某些特定信号。
第二部分给出了数学背景和理论基础。 频谱测试是作为一种新颖的工具引入的。 第三节研究了基于RMT的方法的细节。 第四节和第五节,分别利用模拟数据和现场数据,研究了基于该方法的功能设计。 第六部分总结本文。
2 数学背景与理论基础
2.1 随机矩阵建模
在平衡状态下运行,电网服从:
其中P和Q是节点i的功率注入,并且和是网络的功率注入,满足:
结合(1)和(2),我们获得:
其中w0是节点的功率注入矢量,取决于P是,Q是,x 0是取决于V i,theta;i的系统状态变量,并且y 0是取决于B ij,G ij的网络拓扑参数。
然后,由于系统波动,因此数据集中的随机性被表达为:
随着泰勒展开,(4)被改写为:
系统状态变量x的值相对稳定,这意味着二阶项和更高阶项是可忽略的。 另外,(2)表示frsquo;rsquo;yy(x,y)= 0。结果,(5)变成:
假设网络拓扑结构不变,即 = 0。从(6)可以推断出:
另一方面,假设功率需求不变,即 = 0。从(6)推断出:
其中
请注意,即雅可比矩阵J0的反转。
因此,电力系统运行主要依靠随机矩阵的形式。如果存在意外的有功功率变化或短路,系统状态变量x 0的相应变化,即V i,theta;i分别服从(7)或(8)。
对于一个没有戏剧性变化的实际系统,丰富的统计经验证明,雅可比矩阵J几乎保持不变,因此s 0也是如此。考虑在时间点i = 1,...,T处观察到的T个随机向量,该关系以X s = S 0 W的形式构建,其中X s表示类似于(3)至状态变化[X1,...,XT],W表示相应的功率注入或拓扑参数的变化。
以[20]中的情况为例,对于平衡操作系统(拓扑结构不变,无功功率几乎不变或变化比有源功率慢得多),电压幅值和有功功率之间的关系模型就是像无线中的多输入多输出(MIMO)模型一样沟通[16],[22],我们写成V=EP。需要注意矢量的大多数变量都有随机噪声,例如P中的小随机波动。此外,通过标准化,标准随机矩阵模型(RMM)为以的形式建造,其中R是标准高斯随机矩阵。
2.2 基于渐近经验谱分布的异常检测
如上所述,这些快速波动经常表现出高斯统计特性[15]。在实践中,在所提模型中使用高斯酉集成(GUE)和拉盖尔酉集成(LUE):
其中X是标准高斯随机矩阵,其条目是独立同分布的(i.i.d.)复高斯随机变量。 令为A的经验密度,并定义其经验谱分布(ESD):
其中A是GUE或LUE矩阵,表示事件指示函数。我们可以调查期望ESD 与Wigners半圆定律或Wisharts M-P定律的收敛速度。 令和表示A的真实特征值密度和真正的光谱分布,Wigner的半圆定律和Wishart的M-P定律可表示:
其中
然后,我们用表示和之间的Kolmogorov距离:
Gotze和Tikhomirov [26]在他们的工作中证明了的一个最优界限。
引理2.1:存在一个正常数C,使得对于任何Nge;1,
他们还证明了标准半圆定律和M-P定律的密度与期望谱密度的收敛满足以下引理。
引理2.2:对于GUE矩阵,存在一个正常数和C,使得对于任意。
引理2.3:对于LUE矩阵,令beta;= N / T,对于所有Nge;1,存在一些正常数beta;1和beta;2,使得0 lt;beta;1le;beta;le;beta;2 lt;1。那么存在一个正常数C和ε取决于beta;1和beta;2以及任何Nge;1和。
引理2.2和2.3也描述了人口分布函数如何快速收敛到渐近ESD极限。 这种基于ESD的测试对于复杂网格的异常检测很有意义; 第四节验证了有效性。 我们利用ESD收敛到其极限的数学知识,并以最优收敛速率进行。
3 情景意识的方法
3.1 技术路线和实际程序
所提出的基于RMT的方法由三个过程组成,如图1所示:1)大数据模型-使用RMM的实验数据对系统建模; 2)大数据分析-对指标体系进行大数据分析; 3)工程解释-将操作员的统计结果可视化并解释为决策。
这种方法是可以通用的。在电网网络[2],[18]和传输设备[19]的异常检测和诊断领域,已经做出了许多成功的尝试。此外,基于RMT的[27]和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22186],资料为PDF文档或Word文档,PDF文档可免费转换为Word