基于交通事故的非均衡数据集的贝叶斯分类器外文翻译资料
2022-10-27 15:37:40
英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
基于交通事故的非均衡数据集的贝叶斯分类器
摘要
交通事故的数据集通常是非均衡的,以死亡或者严重受伤(少数)分类的实例数据远少于以轻微受伤(大多数)分类的实例数据。因此,这给分类算法提出了严苛的要求。尽管死亡或者严重受伤实例经常被错误分类,但我们仍希望能获得一个模型能涵盖轻微受伤的实例。基于在三年间(2009-2011)收集到的有关城市和农村道路交通事故数据,我们可以看到,已有三种不同的数据均衡技术得以运用:去除大类实例的欠采样;产生新的大类实例的过采样;和一种结合上述两种方法的混合技术。另外,对用于不同的均衡、非均衡数据集的各类贝叶斯分类器,例如平均单依赖估计、加权平均单依赖估计和为了识别影响事故严重程度因素的贝叶斯网络,我们也进行了比较。结果表明,利用贝叶斯网络使用均衡数据集,尤其是这些利用过采样技术得到的均衡数据集,可以根据交通事故的严重性改善分类的效果,减少死亡或者严重受伤实例的错误分类。另一方面,我们发现下列变量会导致交通事故死亡或者严重受伤:相关的机动车数量、事故类别、路面灯光条件和限速要求。据作者的认知水平,这些工作是旨在分析,发生在约旦的交通事故记录历史数据的第一要义。也可首先应用与分析严重交通事故的均衡技术。
1. 介绍
通过减少事故的严重程度来提高道路安全是一个有效的方案。近期的道路交通安全研究,主要聚焦在造成交通事故致命性损害和损伤程度的危险因素。但是,许多危险因素还有待发现和分析。
交通事故被认为是一个十分重要和危险的问题,世界各地都要面临这样的问题,它给全社会造成了重大的人员和财产损失。世界卫生组织的数据表明,每年全世界据估算有120万人死于交通事故,有2000万至5000万的人员受伤。每年的财产损失约有5180亿美元之巨。
约旦是一个发展中国家,其人口和机动车都有着快速的增长。2013年统计部门发布的人口统计数据显示,约旦已有653万常住人口,登记注册的机动车数量已达1263754辆,每5人拥有一辆机动车辆。根据约旦警察交通署2013年的报告,当年约旦境内共发生107864起交通事故,造成768人死亡,2258人重伤,13696人轻伤。94.74%的事故是由于碰撞造成的,死亡人数和受重伤人数中分别有43%、50%有车辆碰撞造成。另外,阿曼69%的交通事故和71%的车辆碰撞发生在其首都,而其首都仅有相当于约旦39%的人口,约为2528500常住人口。如果用单位损失来衡量约旦的交通事故财产损失,据估达到36500万美元。与约旦2013年全年GDP——336.41亿相比,交通事故财产损失仅占其GDP的1.2%。
城市和乡村的交通事故特性有所不同。Khorashadi等发现,由于司机、机动车辆、环境、道路情况不同,导致城乡交通事故有着十分重大的区别。并且,他们发现城市交通事故导致重伤的概率是相应乡村的8倍,出现其他伤害的概率则是乡村的2.5倍。Theofilatos等人就道路交通事故严重性的调查,着眼于城市区域与非城市区域的对比。他们发现,在城市,影响道路交通事故严重性的因素包括年轻司机的年龄、骑自行车的人和与固定物体的发生的碰撞。而在乡村,这些影响的事故严重性的因素则是天气情况和正面、侧面的碰撞。这表明,由于乡村和城市的差别,因此需要用两种不同的类型网络来关注特定的道路使用者和交通状况。
许多建模技术被用于分析交通事故的损害。使用最多的就是logit 和probit模型(Al-Ghamdi, 2002; Milton et al., 2008; Savolainen et al., 2011; Mujalli and De O tilde;na, 2012)。但是,其中大部分都用假设和预定义模型来构成独立和非独立变量关系(Chang and Wang, 2006)。最近,许多研究者开始使用基于数据最小化的技术。例如,关联准则(Pande and Abdel-Aty, 2009; Montella et al., 2012)或者决定树(Loacute;pez et al., 2012a; Abellaacute;n el al., 2013; De O tilde;na et al., 2013)已经用于辨别事故模式。贝叶斯网络也开始被应用于交通事故的严重性分析。De O tilde;na等人于2011年将贝叶斯网络用于受损程度和司机、机动车辆、道路、环境等变量之间的关系建模。他们总结出,贝叶斯网络可以根据受损程度,对交通事故进行分类。另外,Mujalli和De O tilde;na在2011年演示了一个基于贝叶斯网络和变量可选择算法的简化模型,从而对在交通事故中的受损程度进行预测。最近,Kwon等人使用贝叶斯和决定树分类器对危险因素进行了排列。
交通事故的数据集与轻度受损的事故相比,通常含有较少的记录(Montella et al., 2012)。如果被称之为少数类的类别中,有一个比其余类含有较少的例子数量,则此类被认为是非均衡的(Stefanowski and Wilk, 2008)。根据李和孙在2012年的定义,如果在一个数据集中,较少类的样本所占比例少于35%,则这样的数据集就是非均衡的。当学习非均衡数据时,数据最小化算法将对大多数类产生高精度的预测,但对较少类的预测精度较低(Thammasiri et al., 2014)。这类问题有许多办法能解决,可以将其分成两个主要的部分(Loacute;pez et al., 2012b):内部措施可以产生新的算法或者改变现有的算法,而外部措施可以预处理数据,从而减少类不均衡的影响。预处理方法或者称之为重采样技术似乎是更为直接的方法,有望克服类的非均衡问题(Thammasiri et al., 2014)。
重采样技术可以被归为3部分:第一部分包含欠采样方法,欠采样的主要目的是通过去除来自大多数类的抽样数据,来均衡类。欠采样随机地消除来自大类的例子,直到在各类中达到一定程度的均衡。第二部分包含过采样方法,过采样的主要目的是通过在少数类中产新采样以及将其加入到训练集中,从而进一步均衡类。最后,第三部分采用的混合技术。
本文对约旦城市和乡村交通事故受损程度的影响因素进行了分析。为了达到这个目的,在原始数据集和三种均衡数据集中使用了贝叶斯分类器。最终,我们对先进的模型进行了比对,对最优模型结果进行了描述。
本文的结构如下:第二部分展示了相关技术方法、数据的使用、对使用的贝叶斯分类器进行了简要的描述并且阐述用于估测模型的方法性能。第三部分是结果和讨论。第四部分给出了结论。
2. 算法
在本文中,首先会获得一个非均衡数据集,其被应用于构建适用于不同贝叶斯分类器的模型。贝叶斯分类器被用于分析发生在城市和乡村道路上的碰撞所导致的受损程度。
贝叶斯分类器
使用贝叶斯定理,使得统计推断例如分类,在数据处理中的应用效果十分良好。类的作用是用来预测类中成员的变量值。由于有相同的值,因此这些变量被归为同一类。贝叶斯分类器正是基于这种理念而诞生的(Poole and Mackworth, 2010)。
朴素贝叶斯分类器
朴素贝叶斯分类器被认为是最简单的贝叶斯分类器,它提出了独立性假设,即:输入变量是条件独立的。朴素贝叶斯分类器的结果可以用一个特殊的可信度网络来说明,在可信度网络中,每一个变量代表一个节点,称之为子节点,而类变量对于其他变量而言是唯一的父节点。
设,且每个属性变量的值为,最佳目标值为。为了得到训练集的最佳目标值,我们使用贝叶斯分类方法,每一个属性变量集对应一个类变量,分类器必须识别出所给的属性变量集属于哪一个未知的类。贝叶斯分类器定义为(Wu and Cai, 2011):
(1)
朴素贝叶斯分类器适用于独立变量的假设成立时,即,当某个类是其他变量的一个恰当假设时,并且相对于给定的类,这些变量都是独立的。那么可得到以下公式:
(2)
在朴素贝叶斯网络中,每一个变量结点,都有一个作为其父结点的类,但并不是每一个变量结点都对应着一个不同的父结点。在很多情况下,例如交通事故分析中,假设属性变量之间是相互独立的,是不实际的。当两个变量是相关的,此时朴素贝叶斯会给予这两个变量更大的权重,而给予其他变量的权重会相对较少,这会导致分类产生偏差。但是删除一些变量或许可以产生减缓相关问题的效果(Zheng and Webb, 2006)。
为了提高朴素贝叶斯的精确度,我们可以通过减弱其变量相互独立的假设,因此,半朴素贝叶斯分类器可以通过改变变量之间条件独立的限制,被用于增强朴素贝叶斯。平均单依赖估计(Aggregate One-Dependence Estimators ,简称AODE)就是一个被用来解除这种限制的一种技术。它可以通过平均单依赖的朴素贝叶斯模型中被限制的群组,获得更高的精度(Webb et al., 2005)。
单依赖分类器是为了每个变量而构建的,这些变量被设置成其他变量的父结点。平均单依赖估计保持了朴素贝叶斯的简易特性,并且不会增加计算所需的时间,是一个十分有效的分类器(Wu and Cai, 2011)。
单依赖分类器被定义为下式(Webb et al., 2005):
(3)
是训练实例数量的函数,这些训练实例有变量,并且被用于加强对m的限制。
有一种改进了的平均单依赖估计,被称为带有包容分辨率的平均单依赖估计(简称为AODEsr)。这种改进了的平均单依赖估计,利用训练时得到的概率估计表,来有效地检测、定位用于训练的两个变量之间特殊的独立形式。带有包容分辨率的平均单依赖估计不再强调变量独立假设,
特殊化和一般化关系是相互依赖一个极端类型。假设有和两个变量,如果,且是的一般化,而是的特殊化。 如果一个特殊化变量被删除,则带有包容分辨率的平均单依赖估计删除一个一般化的变量。并且带有包容分辨率的平均单依赖估计能够获得,使用了剩余变量值的有效分类器的预测(Zheng and Webb, 2006)。另一个半朴素贝叶斯分类器是加权平均单依赖估计,它通过条件交互信息来对平均单依赖分类器进行加权。与平均单依赖估计相比,加权平均单依赖估计的性能更为优异(Jiang and Zhang,2006)。
加权平均单依赖估计是朴素贝叶斯分类器的延伸,它不同于朴素贝叶斯对独立性有那么强的要求。且加权平均单依赖估计由多重单依赖估计构成。我们可以将一个单依赖估计看作带有单个变量的分类器,且这个单一变量是其他变量的父结点。在加权平均单依赖估计中,单依赖估计被用于每个变量的构建,并且不同的权值被分配给每一个单依赖估计。
如果用来代表一个实例E,其中是变量的值。则加权平均单依赖估计分类器被定义为:
(4)
是单依赖估计的加权,在单依赖估计中,变量是其余变量的父结点。在加权平均单依赖估计中,为了确定加权值,变量和类之间的互信息被用于下式中:
(5)
其中和的概率由如下估计得出:
(6)
(7)
其中是频率,N是训练实例的数量,是变量值的数量,k是类的数量。
贝叶斯网络分类器
随着在相关领域理论及计算机的发展,贝叶斯网络在不同领域已经有了长足的发展和应用(Mittal et al., 2007)。例如:生物信息学建模、医学、文件分类、信息检索、图像处理、数据融合、决策支持系统、工程应用、博彩业和法律等领域。
令为一个变量集合,包含一组变量集合的贝叶斯网络可以看成是一个网络结构,这种网络结构有一个关于变量X的有向非循环图,以及一个概率表。一个贝叶斯网络的联合概率分布为。
基于贝叶斯理论,变量之间的关系可由有向非循环图中的弧来表示。变量之间的关系还可以表示变量之间的因果性、相关性或者直接依赖关系(Neapolitan, 2009)。但是,鉴于本文的研究目的,我们并未像Acid等人提出的(2004),假设贝叶斯网络中的弧是具有因果关系的。结果,在相连接的变量中,那些弧被认为是具有直接向依赖关系的。并且,弧的缺少意味着变量之间缺少直接相依赖关系。但是,变量之间的间接依赖关系却是存在的。
在分类中,变量被称为类变量。假设一组变量,我们将其称为属性变量。一个分类器具有将实例X映射到V的功能。一个分类器在包含了例子(X,V)的数据集中进行学习。学习的任务是,在给定的包含X的数据集D中,找到一个合适的贝叶斯网络。
为了在贝叶斯网络中进行结构学习,有两种方法是可行的:第一种是基于约束的方法。这种方法对数据进行了条件独立性测试,并且寻求一个与所观察到独立与非独立性一致的网络。第二种是基于得分的方法。这种方法定义了一个得分机制,用以评估在与数据匹配的结构中独立与非独立性的效能。并且找到得分最高的结构。
在本文中,为了建立不同的模型,我们使用了下列贝叶斯分类器:平均单依赖估计、加权平均单依赖估计和贝叶斯网络。就它们根据交通事故中受损程度对交通事故进行正确分类的结果,比较它们的性能优劣。
搜寻算法和得分机制被用于本文中,除了搜寻算法和得分机制已经被广泛使用,并且具有相对高效的特点,主要还是因为就网络的复杂性和精确性而言,使用它们得到的结果较为理想(Madden, 2009)。
性能评估方法
为了对已经得到的模型性能进行评估,本文用到了很多常用的性能评估方法。这些性能评估方法是通过使用混合矩阵得出的。在双类问题中,这些矩阵显示了正确地或错误地预测实例所属类别的结果。我们用TP(True Positives)表示将正实例正确分类的数量;我们用TN(True Negatives)表示将负实例进行正确分类的数量;我们用FP(False Positives)表示将正实例进行错误分类的数量;我们用FN(False Negatives)表示将负实例进行错误分类的数量。
用于本文的性能评估指标是精确度(accuracy,)、敏感度(sensitivity)、特异性(specificity)和
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153295],资料为PDF文档或Word文档,PDF文档可免费转换为Word