登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 计算机科学与技术 > 正文

连续的动态贝叶斯网络预测缺血性心脏病患者的存活情况外文翻译资料

 2022-07-31 14:46:24  

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


连续的动态贝叶斯网络预测缺血性心脏病患者的存活情况

Adele H. Marshall 1,2 , Laura A. Hill 1 和 Frank Kee 2

1统计科学和运筹学研究中心(CenSSOR)

2公共卫生卓越中心

贝尔法斯特女王大学

贝尔法斯特,北爱尔兰,BT7 1NN

a.h.marshall@qub.ac.uk

摘要

本文介绍了一种动态贝叶斯网络(DBN)模型,用于表示患有缺血性心脏病(IHD)的患者的存活情况。该模型主要目的在于调查患者变量、发展心血管疾病(IHD)的风险和存活之间的潜在关联。特别值得注意的是,被称为代谢综合征的风险因素的组合是确定IHD风险中有用的关键变量,或者是否有其他被认为同样重要的,例如与综合征不相关的年龄,吸烟和BMI。所得到的动态贝叶斯网络提供了患者变量,疾病发生和存活之间的因果关系的直接说明,目的是了解患者的需要和突出健康干预的可能性。希望这样的模型可以通过示出某些患者特征的产生健康改善和降低风险的变化来帮助告知患者管理决策。 DBN具有额外的容量,以允许表示重复测量数据,其中患者变量可在多于一个时间点可用。

1.引言

代谢综合征是可以增加发展为缺血性心脏病(IHD)和糖尿病的风险的医学疾病的组合[1]。来自国家胆固醇教育计划成人治疗小组III的代谢综合征的正式定义需要存在至少三种下列症状: 升高的腰围,升高的甘油三酯,升高的血压或使用药物治疗高血压,降低的高密度脂蛋白(HDL)胆固醇和升高的空腹血糖或使用药物治疗高血糖。 本文希望考虑一个患者特征的数据集,以调查他们与IHD发生和存活情况的关联。

有关的数据集称为Caerphilly数据集,以数据来源威尔士的一个小村庄命名[2]。 数据的一个关键特征是其包含对在基线和通过3个随访期测量的一些临床变量的重复测量。 然而,不幸的是,数据不完整,大约只有50%的参与过蓟县测量的初始参与者,在第一个五年的随访中再次作出反应。 希望在这个五年后续行动中的一些附加变量可以包括在分析中,以证明使用这种重复测量数据方法与的可能性。

建模方法来自贝叶斯网络(BN)理论,其中可以将数据表示为相互关联变量的网络,其中网络中的节点指代变量,节点之间的箭头指示变量之间的关系[3]。 附加到节点是给定网络中的其他互连变量的数据值的各种出现的条件概率。 正是这种变量和关系的图形化说明,允许非专家有机会将贝叶斯网络模型理解为一种直接解释的透明方法。 BN理论的一个扩展是动态BN(DBN),其允许使用随时间收集的变量[4]。因此,Caerphilly数据集中的重复测量更适合于DBN建模。 此外,网络现在将包含连续变量,不同于先前的研究只限于离散变量。

本文详细介绍了Caerphilly数据集的动态贝叶斯网络模型。 希望该模型可以表示患有缺血性心脏病(IHD)的患者的存活,并且说明患者变量(其中一些是重复测量)与发展IHD的风险和相关生存之间的任何潜在关联。 确定增加IHD风险的因素,为突出个人或患者群体的健康干预提供了可能性。 因此,该模型可以通过示出某些患者特征的变化可以在何处产生健康改善和降低的风险来帮助告知患者管理决策。

2. Caerphilly数据集

Caerphilly前瞻性研究[2]于1979年由南威尔士的MRC流行病学单位成立。 本研究的最初目的之一是检查某些变量在缺血性心脏病(IHD)发展中的重要性。 Caerphilly和毗邻村庄之间的45至59岁的所有男人参与了研究。共有2512名受试者参与回答,并在整个研究期间接受了四次检查; 基线调查,5年随访,10年随访和约15年随访。在原来的2512名受访者中,有1263名(50%)接受第二次检查。

以下Caerphilly变量被认为是与代谢综合征最相关的。

  • 年龄-研究刚开始时的年龄
  • 吸烟者-研究刚开始时的吸烟者
  • sbp1-收缩压(基线)
  • dbp1-舒张压(基线)
  • hdlc1 - HDL胆固醇(基线)
  • tottrig1 - 甘油三酯(基线)
  • bmi1 - 体质指数(基线)
  • sbp2 - Sytolic血压(5年随访)
  • dbp2 - 舒张压(5年随访)
  • hdlc2 - HDL胆固醇(5年随访)
  • tottrig2 - 甘油三酯(5年随访)
  • bmi2 - 身体质量指数(5年随访)
  • incihd10 - IHD在10年时的发病率
  • dead10 - 10年后死亡

对先前列出的变量进行的描述性统计如下。

2.1年龄

研究开始时受试者的年龄通常分布在45至59岁之间。平均年龄为52岁,中位年龄也为52岁。

2.2吸烟状况

如果受试者在研究开始时抽吸任何量的香烟,雪茄或烟斗,则被分类为吸烟者。

2.3收缩压

收缩压(sbp)是在正常水平被认为是115mmH的动脉中达到的峰值压力[5]。在基线,sbp范围在90和220mmHg之间,平均值为139.49mmHg。在5年随访时,sbp显示出小的增加,最大值为236mmHg,平均值为144.77mmHg。两个变量#39;sbp1#39;和#39;sbp2#39;呈正态分布,并且这种分布的偏移表明群体的收缩压总体上小的增加。

2.4舒张压

舒张压(dbp)是在正常水平被认为是75mmHg的动脉中达到的最小压力[5]。 在基线,dbp的范围在0和138 mmHg之间。 在5年随访时,dbp范围在0和144mmHg之间。 #39;dbp1#39;和#39;dbp2#39;是正态分布变量。 这表明总体人群舒张压略有增加。

2.5 HDL胆固醇(hdlc)

高密度脂蛋白胆固醇(hdlc)是脂蛋白的五个主要组之一。在健康个体中,约30%的血胆固醇由HDL携带。 通常认为,血液中高水平的hdlc(大于1.55mmol / L)可以帮助预防心血管疾病,并且血液中低水平的hdlc(低于1.03mmol / L)可以增加心脏疾病的风险。在基线,hdlc范围在0.34和3.54 mmol / L之间,平均1.13 mmol / L。在5年随访中,hdlc范围在0.5和2.86 mmol / L之间,平均1.10 mmol / L。两个变量“hdlc1”和“hdlc2”是正态分布的。分布的变化表明hd1胆固醇的一个小的减少,人口更加接近低水平的hdlc(lt;1.03mmol / L)。

2.6甘油三酯

甘油三酯是极低密度脂蛋白的主要成分。血液中高含量的甘油三酯与心脏病和中风的风险增加有关。如果血液中甘油三酯水平低于1.69毫摩尔/升被认为是健康的、低风险、1.70-2.25 mmol/L之间是偏高,超过2.26毫摩尔/升被认为是高风险的。在基线,甘油三酯在0.49和8.55 mmol/L之间,平均1.65 mmol/L。5年随访中,甘油三酯在0.5~7.8毫摩尔/升,平均值为1.65 mmol/L。甘油三酯在两个时间点呈正态分布,在人口总体上甘油三酯水平全面升高,那几乎是在“偏高”组。

2.7身体质量指数(BMI)

体重指数(BMI)定义为体重除以身高的平方。BMI在18-25之间,被认为是正常的,低于18表明体重过轻,超过25的超重的人患心脏病的风险增加。在基线,BMI介于15.82和43.37,而在5年的随访,BMI介于15.42和42.74。BMI变量是正态分布的,“bmi1”和“bmi2rsquo; 具有相同的平均值26。

2.8缺血性心脏病的发病率

变量incihd表明一个人在5年随访,10年随访中是否具有IHD发病率。非致命性冠状动脉事件的结果从医院记录中得到验证。

2.9死亡

结果变量,死在10年内,表明一个人是否在5年随访和10年随访之间死亡。致命的冠状动脉事件从死亡证明中进行了验证。

2.10存活时间

生存变量计算为第一次非致命性心肌梗死的日期与死亡日期之间的天数。 经历非致命性心肌梗死的患者的实际存活时间为38至6566天(约18年),平均为2718天,中值为2595天。平均值和中间值非常接近,表明变量可以是正态分布的。这不是典型的生存数据。进行Kolmogorov-Smirnov检验以统计学测试该变量的正态性。得到的p值为0.647,而不是lt;0.05,证实了生存变量是正态分布的。

3.动态贝叶斯网络理论

动态贝叶斯网络(DBN)扩展贝叶斯网络的理论以表示随时间变化的数据。贝叶斯网络是有向无环图(DAG),其中节点表示变量,边表示依赖性。 DAG D可以写为D =(V,E),其中V是图中的节点,E是边。 对每个节点visin;V附加一个随机变量X v。 D中的随机变量集为(X v)visin;V。 这组随机变量(X v)visin;V在贝叶斯网络中是固定的。当建模多变量时间序列时,需要一个框架,其中允许随机变量集随时间变化。为此,使用如下定义的DBN。

3.1动态贝叶斯网络

假设被建模的域由一组随机变量X = {X 1,...,X n}组成,其中每一个由贝叶斯网络中的节点V表示。 在DBN中,对于每个时间步长,每个X i有一个节点。 因此,如果当前时间步长由t表示,则前一时间步长将为t-1,并且下一时间步长为t 1,因此DBN图D中的对应节点为:

  • 现在:
  • 过去:
  • 未来:

DBN也可以允许没有时间依赖性的变量,称为静态变量[6]。 这组变量由Xs表示,具有对应的节点Vs。DBN中的分别在具有时间序列t = {0,...,T}的变量和节点的完整集合是X = {(X t)t = {0,...,T},Xs} 变量集,和V = {(V t)t = {0,...,T},Vs}

每个时间步长称为时间片。时间片内的变量之间的关系称为片内关系,由片内弧表示。时间片内网络的结构通常不改变,即变量对于所有t是相同的,除了初始时间片t = 0,其中内部关系不需要是相同的[6]。 跨越不同时间步长的变量之间的关系称为片间关系,由片间弧表示。 这些包括相同变量之间的关系,以及不同变量随时间的关系。 几乎总是这样,某时刻变量的值影响其下一个时间步长的值,因此弧几乎总是存在。 因此,马尔可夫假设适用于DBN,即在一个时间点的变量的状态仅取决于其当前状态及其先前的状态。片内和片间关系都通过与每个节点相关联的局部

概率分布来量化。条件分布与时间无关,边缘分布可能取决于时间。

图1.三个时间片的DBN示例

图1说明了每个时间片中的3个节点。 注意,每个时间片内的结构是相同的。 示例DBN的联合概率分布由下式给出:

X是变量{Xi (t minus;1),Xi (t),Xi (t 1)}的完整集,i是一个时间片内对应的节点i=1,2,3。

3.2一阶马尔可夫DBN

一阶马尔可夫DBN定义为(BOtilde;,B),其中BOtilde;是XOtilde; =(X0,Xs)的联合概率分布的贝叶斯网络,B是有2个切片的贝叶斯网络Xt的概率分布的定义,其中t = 0,1。BOtilde;的概率分布为

B概率分布为

这可以扩展为具有T 1个时间点的DBN,给出(BOtilde;,B)的联合概率分布,其中B是具有定义Xt的概率分布的T 1时间片的贝叶斯网络,其中t = 0,1,...,T。

DBN的规格必须包括:

  • 节点名称 - 用于每个时间片的所有变

    全文共9851字,剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[142842],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图