基于高斯过程的随行监护数据插补方法研究毕业论文
2020-02-23 18:19:19
摘 要
通信基础设施的进步使可穿戴设备在病人监护方面的广泛应用成为可能。准确且可靠地获取各种生理数据可以帮助医生和患者正确地检测和识别潜在的健康风险。然而由于某些人为因素或者信号不稳定等原因导致数据缺失的情况常常存在,这可能对后续的数据分析造成不便,甚至降低决策的准确性。高斯过程是一系列关于连续域的随机变量的联合,为了探究高斯过程回归方法对生理信号中缺失数据的插值预测效果,采用了可穿戴胸衣采集的50段心电数据为实验数据,使用PT算法将心电数据转化为相应的心率数据,根据对实际生活中数据缺失问题进行分析,将数据缺失分成了连续缺失和随机缺失两种情况,构造不同缺失率的模拟数据,使用高斯过程回归、线性插值和三次样条插值三种方法对缺失数据进行预测。实验结果表明,高斯过程回归的预测效果是最优的,并且预测效果与缺失率及包含先验信息的窗口大小也是相关的。
关键词:可穿戴设备,数据缺失,高斯过程回归
Abstract
Advances in communications infrastructure have made it possible for wearable devices to be widely used in patient monitoring. Accurate and reliable access to various physiological data can help doctors and patients correctly detect and identify potential health risks. However, due to some human factors or signal instability, missing data often occur, which may cause inconvenience to subsequent data analysis, and even reduce the accuracy of the decision. In order to explore the effect of Gaussian process regression method on the interpolation prediction of missing data in physiological signals, 50 sections of ECG data collected from wearable bras were used as experimental data to construct simulated data with different missing rates, Gaussian process regression, linear interpolation and three spline interpolations were used to estimate the missing data of the three methods. The experimental results show that the estimation of Gaussian process regression is optimal among the comparative methods, and the estimation accuracy is also related to the missing rate and the window size containing prior knowledge.
Key Words:wearable devices,missing data, Gaussian process regression
目 录
第1章 绪论 1
1.1 论文研究的背景 1
1.2 论文研究的目的及意义 2
1.3 国内外研究现状 3
1.4 论文研究的内容 4
第2章 方法和模型介绍 6
2.1 高斯过程回归方法 6
2.2 线性插值方法 8
2.3 三次样条插值方法 8
第3章 结果和讨论 11
3.1 实验设置 11
3.2 结果分析 12
3.2.1 连续缺失 12
3.2.2 随机缺失 18
第4章 结论 20
参考文献 21
致 谢 23
第1章 绪论
1.1 论文研究的背景
在发展越来越快速的现代社会,各种各样的疾病也在不断的缠绕着我们,近年来,健康问题愈发的引起了人们的重视。而如今,人们对健康医疗的关注点不仅仅在于接受医院的治疗,更在于能在日常生活中对疾病进行观察和管理,从而提前防范疾病的发生。传统的医疗监护设备主要用于医院临床监护,采集患者生命体征,并对采集到的生理信息进行简单处理后传输给相关医护人员或监护中心,以便及时对患者的情况进行监控。传统上,这些医疗监护设备与床边监视器一起使用,这些自动化设备对患者的行为有着一定的约束性。患者无法将这些庞大的监护设备随身携带,只能在合适的地点进行相关生理信号的检测,这给患者的健康监测带来了一定的局限性。如今,随着无线技术的发展和大数据时代的到来,人们逐渐看到了新型医疗监护系统的未来-可穿戴技术,可穿戴技术的出现使得医疗监护系统正在从以医生为中心,以医院为中心的模式转变为以患者为中心,持续监控的模式[1],让人们可以在更方便地进行健康管理。和传统的医疗设备相比,可穿戴医疗设备可以更加便携地佩戴在患者身体的不同部位,不仅能用于临床监控患者的健康状态,其远程监测功能使其不受时间地点的限制,持续性的监测不同的生命体征[2][3]。将采集到的生命体征数据后,可以将数据传输到相应的数据处理中心进行数据分析,并将结果发送到移动端(手机、电脑等)。以便让用户实时掌握个人的身体健康状况,及时更正不良的生活习惯,从而实现疾病的预防与早期治疗。
中国产业调研网发布的“ 2018-2025年中国可穿戴设备行业现状研究分析及市场前景预测报告”显示,医疗服务是可穿戴设备最具前景的应用领域。可穿戴技术在医疗保健领域至少占可穿戴设备的50%份额。一方面,我国不断加剧的老龄化趋势造成了医疗需求的急剧增长,同时医疗资源的供给却又严重短缺,这已经成为一个不容忽视的社会问题。老龄化的加剧导致更多空巢老人的出现,空巢老人的住所通常与儿女相距较远,既缺乏儿女的照顾又缺乏医疗资源的独居老人有着较大的安全隐患。虽然现在社会上也有专门照顾空巢老人的组织或机构,但是随着空巢老人越来越多,传统的方法不仅将花费更多的人力成本,还需要非常高的医疗成本。可穿戴技术的出现可以很好的解决这个问题,可穿戴医疗设备可以代替护理人员的工作,对空巢老人进行生命体征的实时监测,远程监控空巢老人的健康状况,从而降低医疗成本[4][5]。另一方面,可穿戴医疗设备也将带来管理慢性疾病的新途径。目前我国已经进入慢性病的高负担期,慢性疾病是长期积累形成疾病,病期长,具有隐蔽性,这些特点使得慢性疾病不易检测,不易发现。但是疾病形成的过程中,相关的生理信号指标总是会出现细微的变化,虽然人体感知不到,但是我们可以通过可穿戴医疗设备对相关生理信号指标进行长期动态监控,形成一本电子疾病日记来进行疾病管理,不仅让患者能更清楚的了解自己的身体状况,也能为疾病的诊断治疗提供大量数据,对于一些疾病的初步诊断及慢性病的治疗提供了依据[4][5]。这样既减少了就医的次数,又节省了费用和人力成本。
由上可知,可穿戴设备在医疗数据采集方面的重要性。然而,可穿戴设备并不总是能采集到完整的生理信号。当患者移动时,传感器的松动或脱落会导致传感器无法检测到任何生理信号[6][7];数据在传输和存储的过程中,设备故障或通信故障等问题可能会引起信号的伪影和噪音,导致数据出现异常,等等。在这种情况下,如果任由数据丢失或损坏,这会对后续的数据分析造成不便,甚至会降低决策的准确性。
1.2 论文研究的目的及意义
数据缺失是数据分析处理问题中常见的问题,广泛存在于经济,金融,计算机科学等领域。可穿戴医疗设备可以收集如以下生命体征参数:心电图(ECG),血氧饱和度(SpO2),心率(HR),光电容积描记(PPG),血糖(BG),呼吸率(RR),血压(BP)等等,这些生理信号可以帮助我们进行患者的疾病管理和健康状态监测。未来,冠心病、高血压、糖尿病等慢性疾病的患者将不仅接受药物治疗,还可以得到基于生命体征数据分析得到的整体疾病管理指导方案,包括远程监测、远程治疗方案调整、生活方式管理等。数据的质量对数据分析效果有直接影响,从这个意义上讲,医疗保健的质量严重依赖于这些医疗设备采集数据的完整性。表1.1显示了MIMIC II数据库中该部分患者心率和血压记录的丢失率[1][8]。
表1.1 MIMIC II数据库的数据缺失情况
Record | Total | Heart Rate | % | Blood Pressure | % |
a40017 | 3610 | 571 | 15.82 | 1406 | 38.95 |
a40022 | 8633 | 192 | 2.22 | 5960 | 6.9 |
a40076 | 4228 | 8 | 0.19 | 212 | 5.01 |
a40084 | 3887 | 102 | 2.62 | 396 | 10.19 |
a40093 | 2677 | 372 | 13.9 | 401 | 14.98 |
a40154 | 4090 | 67 | 1.64 | 249 | 6.09 |
a40414 | 4663 | 382 | 8.19 | 476 | 1.02 |
a40471 | 1668 | 40 | 2.4 | 74 | 4.44 |
a40502 | 11117 | 115 | 1.03 | 1183 | 10.64 |
a40645 | 6749 | 287 | 4.25 | 465 | 6.89 |
Total | 51322 | 2136 | 4.16 | 10822 | 21.09 |
对于不同的患者,不同生理信号的缺失率差异很大,但数据缺失的问题普遍存在。在生理信号分析中,大多数算法对数据的推断结论都是建立于数据的完整性之上,如果直接使用含有缺失值的数据,缺失值会对信号分析造成很大干扰。处理缺失值的一种常用的方法是将缺失数据直接丢弃,但是断断续续的生理信号不能完好地体现患者的健康状况,容易导致错误地评估患者状态,出现误报警的问题。这不仅会增加护理人员的工作量,而且有可能会引起错误的决策,增加患者的生命威胁风险。因此,在进行数据分析之前,用适当的方法处理缺失值是必不可少的。目前,对于缺失值的处理,已经有了不少的研究。缺失值的预测同样也依赖数据的特性,不同领域的数据有着不同的特性,对缺失值的处理需要建立不同的模型。而根据以往的研究证明,生理信号在时间和空间上表现出了很强的相关性,因此可以利用包含先验信息的历史数据段来预测缺失值[1][9]。结合以上信息,本文希望基于高斯过程对可穿戴医疗设备所采集的数据进行缺失值预测插补,期望获得准确性和可靠性更高的数据集。
1.3 国内外研究现状
戴雪梅,张佃中在2013年发表的文章“心率缺失数据插值方法探讨”中提出了一种用 Logistic混沌序列插值的新方法来处理RR间期信号的空白段。实验采用年老组和年轻组各13名健康受试者的RR间期序列为实验数据,构造长短不同的缺失数据段,用线性插值,样条插值和Logistic混沌序列插值三种方法对缺失段进行模拟,以近似熵和样本熵作为评价指标。实验结果表明,在缺失率非常小时,线性,样条,Logistic混沌序列三种插值方法的模拟效果相似。随着缺失数据的增多,三种方法的模拟效果都呈现逐渐降低的趋势,但是Logistic混沌序列的模拟效果一直优于线性插值和样条插值。
Qiong Gui等人在2015年发表的文章“ Exploring Missing Data Prediction in Medical Monitoring: A Performance Analysis Approach”中考虑了短时间内数据的变化趋势以及包含先验信息的窗口大小对缺失数据的预测性能的影响,对均值插补,高斯过程回归和卡尔曼滤波三种插值方法的性能进行了比较分析。实验表明,当数据处于稳定趋势时,无论考虑多少个样本,三种不同的预测方法都有着非常好的性能;当数据频繁变化时,高斯过程回归方法能发现数据之间的非线性规律,而卡尔曼滤波方法可以通过前面的预测值与实际值之间的误差来调整预测,均值插补方法只有在窗口很小时才能得到较小的均方误差。因此在窗口大小合适时,卡尔曼滤波方法和高斯过程回归方法对于下一步预测比均值插补方法具有更良好的性能,但是相对与数据处于稳定趋势时,这三种方法的预测值的可靠性都有所下降。
Wong D等人在2012年发表的文章“Probabilistic detection of vital sign abnormality with Gaussian process regression”中使用高斯过程估算缺失数据以及将其纳入自动化数据融合检测系统,数据融合框架使用了从牛津大学John Radcliffe医院的临床研究收集的数据进行测试,研究表明,即使相关数据通道出现了丢失的情况,高斯过程模型会为每个缺失数据信道提供后验分布,原始数据融合模型能恢复到正常状态,检测到生命体征恶化并提供相关警报。
Guanchao Feng等人在2017年发表的“Recovery of Missing Samples in Fetal Heart Rate Recordings with Gaussian Processe”中提出基于高斯过程恢复胎儿心率记录中缺失的样本的方法,对捷克布尔诺大学医院的产科收集的产时CTG记录进行处理,从中获得较短的FHR记录以及相应的UA记录,在FHR片段上进行测试,实验结果表明使用高斯过程方法比胎儿心率信号预处理中广泛应用的三次样条插值提供更准确可靠的结果。同时,实验结果还表明,UA信号包含关于胎儿健康的信息,结合UA信号将能进一步提高缺失数据的恢复性能。
1.4 论文研究的内容
本文尝试探索基于高斯过程的生理信号插值方法,对可穿戴设备获取的心电信号进行插值处理,为生理信号的后续分析奠定基础。本文讨论了两种情况下的数据缺失:随机缺失和连续缺失。在随机缺失的情况下,比较高斯过程插值方法,线性插值方法和三次样条插值方法这三种方法预测的准确性,同时考虑缺失率对缺失数据预测结果的影响。在连续缺失的情况下,首先比较高斯过程插值方法,线性插值方法和三次样条插值方法这三种方法预测的准确性。并且以往的研究表明,缺失样本附近的样本包含有关其真实值的有价值的信息[10],因此在使用不同方法预测缺失值的同时,在连续缺失的情况下也探索了包含先验信息的窗口大小以及缺失样本数量对预测结果的影响。
第2章 方法和模型介绍
2.1 高斯过程回归方法
在概率论和统计学中,高斯过程是观测值出现在一个连续域的统计模型,它实质上就是无限多个符合高斯分布的随机变量的联合。在高斯过程中,连续输入空间中的每一个点都是一个服从正态分布的随机变量,而这些随机变量的有限集合也都服从多元高斯分布,高斯过程也可以看成是多元正态分布的无限维广义延伸。从高斯过程的定义可以看出。输入空间在时间域或者空间域上是连续的,并且是相关的。即某个输入样本对应的输出不仅仅只与当前输入样本有关,还与当前输入样本前后的样本有关,这样就可以通过有限个连续的数据推断出一个无限的序列。高斯过程可以由均值函数和协方差函数唯一确定。其中:
(2.1)
(2.2)
均值函数决定样本出现的整体位置,而协方差函数则捕捉不同输入点之间的相关性,对任意两个数据点和,我们认为和之间的“距离”决定了他们之间的相关性,而跟具体某个取值无关。在高斯过程中,协方差函数也叫核函数。通常为了简单起见,高斯过程的均值都被假定为零,即对于每一个,。选择使用不同的核函数会影响到⾼斯过程模型的预测结果。因此在实际应⽤中,通常不固定核函数,而是更喜欢使用⼀组带有参数的函数,然后从数据中推断参数的值。这些参数控制了相关性的长度缩放以及噪声精度等等,对应于标准参数模型得超参数。在创建核函数时,需要对这些超参数设置初始值,然后使用梯度下降法等优化算法最大化对数边际似然来得到参数的最优值。径向基函数(RBF)核就是一种广泛使用的核函数,其形式为:
(2.3)