基于深度卷积神经网络*的交通标志识别外文翻译资料
2022-08-22 15:20:41
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
光电字母 2017年11月1日第13卷第6期
基于深度卷积神经网络*的交通标志识别
尹世豪,邓计才,张大伟和杜靖远
郑州大学信息工程学院,郑州450001 中国
(2017年9月12日收到)
copy;天津工业大学和Springer-Verlag GmbH德国2017
交通标志识别(TSR)是自动驾驶系统的重要组成部分。为TSR系统设计高性能分类器是一项相当艰巨的任务。本文提出了一种基于深度卷积神经网络的TSR系统新方法。为了增强网络的表达,设计了一种结合了网络内网络和剩余连接的新颖结构(以下称为块层)。我们的网络有10个带参数的层(将块层视为单层):前七个是交替的卷积层和块层,其余三个是完全连接的层。我们在德国交通标志识别基准(GTSRB)数据集上训练TSR网络。为了减少过度拟合,我们在训练图像上执行数据增强,并采用一种称为“辍学”的正则化方法。我们在网络中采用的激活函数采用缩放的指数线性单位(SELU),可以诱导自归一化性质。为了加快训练速度,我们使用了高效的GPU来加速卷积运算。在GTSRB的测试数据集上,我们达到了99.67%的准确率,超过了最新的结果。文档代码:文章ID:1673-1905(2017)06-0476-5
DOI https://doi.org/10.1007/s11801-017-7209-0
近年来,随着驾驶员辅助系统和自动驾驶汽车的飞速发展,交通标志识别(TSR)引起了许多研究人员的关注。交通标志提供了许多有关交通环境的有用信息,例如速度限制,方向,危险警告等。及时识别交通标志使驾驶安全便捷。但是,所有输入到TSR系统中的交通标志图像都是从真实环境中拍摄的,并且它们具有各种照明条件,视点,部分遮挡和分辨率。因此,克服这些困难以确保模型的鲁棒性很重要。
在过去的十年中,已经提出了许多TSR系统模型[1-3]。总的来说,TSR过程可分为检测和识别两个阶段,本文重点介绍识别阶段。Lim等人[4]使用颜色/形状和象形图信息提取特征,然后将其输入到径向基函数神经网络(RBFNN)进行交通标志分类。Madani和Yusof[5]运用了预先训练的多类支持向量机(MCSVM)来对交通标志进行分类,而不是上述的RBFNN。最近,由于其出色的分类能力,卷积神经网络(CNN)在计算机视觉领域很流行。 Lau等人[6]提出了一种基于CNN的TSR方法,在马来西亚交通标志数据库上取得了很好的准确性。为了提高识别交通标志的准确性,我们提出了一种深层的CNN架构,并将其用于德国交通标志识别基准(GTSRB)数据集。
整流线性单位(ReLU)是近年来深层CNN所使用的最流行的激活功能。具有ReLU的深层CNN的训练速度快于具有双曲正切或S形单位[7]的同类神经网络。不幸的是,ReLU单元在训练和“死亡”期间可能很脆弱。提出了泄漏的ReLU来解决“垂死的ReLU”问题[8]。Xu等人[9]证明泄漏的ReLU在CNN中的表现要好于ReLU。为了训练深层的CNN,通常使用批量归一化或层归一化来归一化网络中每个层的输出。我们在网络中采用的激活函数是Klambauer等人[10]提出的缩放指数线性单位(SELU)。通过网络传播时,SELU收敛到零均值和单位方差。在我们的网络中,我们发现SELU的准确性比GTSRB数据集上的ReLU(约0.95%)和泄漏的ReLU(约0.4%)更高。SELU激活函数由下给出:
其中lambda;= 1.050 7和alpha;= 1.673 26。
在传统的CNN中,层通常由堆叠的卷积层(可选的是归一化层和池化层)和几个完全连接的层(例如LeNet-5[11],AlexNet[12]和VGG[13])构成。Lin等人[14]提出了一种新颖的深度神经网络,称为网络中的网络(NIN),以提高卷积神经网络的表示能力。受NIN的启发,Szegedy等人[15]设计了代号为“ Inception”的深度卷积神经网络体系结构,并获得了ImageNet大规模视觉识别挑战赛(ILSVRC)2014的桂冠。
剩余网络最早是由He等人在参考文献[16]中提出的,他们在其中提供了经验证据,证明了向网络添加剩余连接的优势。Szegedy等人[17]在ILSVRC 2012分类任务中将Inception体系结构与残差连接相结合,比没有残差连接的精度更高。
为了通过使用几种大小的卷积滤波器来提取不同级别的特征,并受益于添加残差连接,我们设计了一种名为块层的新颖架构,如图1所示。为了简化表示,我们在图中省略了激活功能。块层中的所有卷积层和最大合并层具有相同的步幅1和“相同填充”的相同填充方案,以确保其输出网格与输入的大小匹配。换句话说,块层的输出与其输入的大小相同。这种机制使块层可以添加到传统普通CNN中的任何位置。在块层中,使用昂贵的5times;5和3times;3卷积之前的1times;1卷积作为降维模型来限制我们网络的大小。
图1在我们的TSR网络中使用的块层
块层的输出H(x)是其输入的函数x.块层的堆叠的基础映射表示为F(x)。由于增加了剩余连接,因此块层的输出可以描述如下:
H(x)= F(x) x。 (2)
现在,我们准备描述交通标志识别模型的总体架构。简明的表示总结在图2中。为了简单起见,上述的阻挡层被表示为单层。该网络包含10个权重层:前七个是交替的卷积层和块层,其余三个是完全连接的层。最后一个完全连接层的输出被馈送到43路softmax,该信号在43类交通标志标签上产生分布。最大池化层位于C3,C5和C7层之后。池化网格为3,步幅设置为2。换句话说,我们在网络中采用了重叠池化。
图2简单说明了我们用于TSR的深度卷积神经网络的架构
我们网络的输入是大小为48times;48times;3的RGB图像。输入图像的预处理是对其进行线性缩放,以实现零均值和单位范数。如图2所示,层B2,B4和B6是连接到先前对应的卷积层(可以被合并)的块层。C1层使用步幅为7times;7times;3的64个内核过滤输入图像1个像素。层C3具有128个大小为5times;5times;64的内核,该内核连接到先前的块层。层C5具有256个3times;3times;128大小的内核,而层C7具有256个3times;3times;256大小的内核。前两个完全连接的层(FC8和FC9)每个都有512个神经元。最后一个完全连接层(FC10)具有43个神经元。我们的网络的详细示意图也如图3所示。
图3我们的TSR网络的详细表示
GTSRB数据集[18]具有43幅图像中的51 893张图像(39209张训练图像和12 630张测试图像)类如图4所示。交通标志图像的大小在15times;15和222times;193之间变化。图像在交通标志周围包含10%的边距(至少5个像素)。所有图像均取自具有不同光照和天气条件的真实环境。由于分辨率低,照明差,部分遮挡,运动模糊等原因,一些交通标志图像不容易识别。图5显示了一些示例图像,这些图像是在污染条件下从GTSRB数据集中选择的。
图4 GTSRB数据集中的43个交通标志类别
图5从GTSRB数据集中选取的受污染条件下的示例,例如低分辨率,不良照明,部分遮挡和运动模糊
在GTSRB的训练集中,每个类别的图像数量在210和2 250之间变化。为了避免不平衡数据对实验结果的影响,我们将每个类别的图像数量扩展到2 250。包含少于2 250张图像的类别,我们随机选择这些类别中的一些图像,然后调整亮度,对比度,旋转度等。这样,训练数据的数量可以增加到96750。
为了减少过度拟合,我们对训练数据集进行了数据扩充。由于GTSRB数据集中的图像具有不同的大小,因此我们提取了训练图像的兴趣区域,并将它们首先缩放为52times;52的大小。对于缩放的图像,我们从中随机提取48times;48个色块。这将训练集的大小增加了16倍。扩大训练集的另一种方法是随机调整图像的亮度和对比度。还考虑到GTSRB数据集的图像是从现实世界中收集的,其中有些光照条件很差,我们只能通过在短时间内随机选择的因子来调整亮度和对比度。
我们使用Google Inc.开发的TensorFlow[19]机器学习系统来训练我们的网络。我们的训练使用了0.000 1个学习速率(每30个周期将学习速率降低10%)的Adam[20]优化器。批大小设置为128。我们使用权重衰减(L2惩罚乘数设置为0.000 5)和前两个完全连接的层的dropout[21]正则化(dropout比率为0.5)来减少过度拟合。我们使用参考文献[22]的随机初始化过程来初始化网络中的权重。偏差在我们的网络中初始化为零。我们通过平衡训练集对网络进行了大约100个周期的训练,在NVIDIA Tesla M60 8G GPU上大约需要17小时。实验的细节如图6所示。
GTX 1060 6G GPU.在使用GPU的情况下,我们的网络在识别过程中获得了很高的计算效率。
图7 GTSRB数据集与训练时期的测试准确性
表1 GTSRB测试仪结果比较
球队 |
方法 |
准确性 (%) |
我们的 |
深度CNN |
99.67 |
伊迪西亚 |
CNN委员会 |
99.46 |
即时电视 |
人类(最佳个人) |
99.22 |
即时电视 |
人(平均) |
98.84 |
塞尔曼尼特 |
多尺度CNN |
98.31 |
or |
随机森林 |
96.14 |
表2 我们在不同设备上的网络速度
设备 速度 英伟达GTX 1060 6G 3 ms /帧
Nvidia Tesla M60 8G(单核)
4毫秒/帧
英伟达GTX 960 2G 8毫秒/帧英特尔i7-6700K 45 ms /帧
图6在GTSRB数据集上的训练:(a)训练损失与训练时期的比较;(b)训练准确性与训练时期
在测试时,我们先提取交通标志的区域,然后将其缩放为48times;48像素,然后将其输入到经过训练的网络中。测试准确度的详细信息如图7所示。我们网络的GTSRB的最终准确性为99.67%。表1给出了与一些提交给GTSRB的拟议算法和人工性能的比较。表2总结了测试阶段我们网络在CPU和GPU设置上的速度。实验结果表明,GPU比CPU快几十倍。我们的网络每秒可以在NVIDIA上处理300幅图像
测试阶段一些真实的正误假例如图8所示。对于在轻度污染条件下的图像(图8(a)),我们训练有素的网络可以做出真实的预测。但是对于某些在极端污染条件下的图像(图8(b)),我们的网络无法正常运行。
(a)
(b)
图8测试阶段的一些示例:(a)真实的示例;(b)错误的否定例子
本文提出了一种用于交通标志识别的深层CNN。该网络包含三个块层,但单卷积层和完全连接层除外。我们网络中的块层可以提取不同级别的功能,并且可以灵活地添加到传统的CNN中。在GTSRB的测试数据集上,我们达到了99.67%的准确性。这个结果超出了人类的水平。在未来的工作中,我们打算提高网络的准确性,并在预测阶段加快计算速度。在这方面,我们计划考虑以下问题:调整网络中的层数,采用更多的数据扩充方法,
并减少参数数量。
参考文献
略
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239635],资料为PDF文档或Word文档,PDF文档可免费转换为Word