自动停车系统中的计算机视觉:设计、实施和挑战外文翻译资料
2021-12-28 22:58:00
英语原文共 14 页,支付完成后下载完整资料
自动停车系统中的计算机视觉:设计、实施和挑战
〇、摘要
自动驾驶是工业界和学术界研究的一个活跃领域。自动停车场是一种在限制停车的情况下自动驾驶的低速操纵停车场,是实现全自动驾驶系统的关键产品。从上一代驾驶员辅助系统(包括碰撞警告、行人检测等)的高端系统的角度来看,这也是一个重要的里程碑。本文从计算机视觉算法的角度讨论了自动停车系统的设计与实现。设计一个具有功能安全性的低成本系统并使原型和最终产品之间存在较大的差距,以便处理所有的可能情况是具有挑战性的。我们演示了摄像头系统在处理一系列自动停车使用案例方面是如何的至关重要,以及如何增强基于主动距离测量传感器(如超声波和雷达)的系统的稳定性。实现停车用例的关键视觉模块是三维重建、车位识别、自由空间和车辆/行人检测。我们详细介绍了重要的停车使用案例,并演示了如何将视觉模块结合起来形成一个强大的停车系统。据作者所知,这是第一次详细讨论商业自动化停车系统的系统视图问题。
- 介绍
越来越小化后视摄像头纪元以及最高端全方位的全景摄像头系统的摄像头在汽车中已经变得无处不在。汽车摄像头的使用始于司机的单视摄像头系统。然而,在过去五年中,自动摄像机的摄像机数量和ADAS应用程序的数量都迅速增加,这主要是由于在这段时间内,计算机的处理能力增加,以实现对计算机视觉功能的高水平实时处理。举一些例子,诸如倒车保护、车道偏离警告、前碰撞警告和立体摄像机等应用都可以更全面地估计车辆前方环境的深度。下一阶段的高级系统要求在某些情况下(如高速公路或停车场)实现驾驶自动化。在本文中,我们主要研究后者,即自动停车系统。汽车工程师协会(Society of Automotive Engineers)定义了许多级别的自主驾驶。完全自主驾驶(5级)是一个具有研究前景的目标。目前的系统最多是3级系统,其商业部署主要用于公路驾驶。本文主要研究二级或三级自动停车系统。当然,由于没有一种算法是完美的,而且所使用的传感器在某些情况下可能有局限性,因此这些情况都是存在风险的。部署自动驾驶在更严格的环境自动停车是一个很好的商业起点,首先,它涉及低速操纵,高冲击事故风险低;其次,它是一个更可控的环境,具有更少的场景变化和偶然情况。在现实世界中,自动化停车场的稳定部署和性能统计分析是向更高级别管理迈进的重要一步。
第一代停车系统采用超声波或雷达半自动化,近期在对其摄像机进行增强,以提供一种更为强大和通用的解决方案。在本文中,我们将摄像头视为停车系统的一个重要组成部分,扩展了其他传感器的功能或提供其廉价的替代品。图1显示了常见的ADAS应用程序的各种视图,其中一些是停车系统所需的。全方位视野摄像头系统由四个典型传感器组成,形成一个具有小重叠区域的网络,能够覆盖汽车周围的近场。如图所示,图2显示了一个典型的CAM时代网络的四个视图。需要注意的是,摄像机的设计和定位都是为了在近场感应(这对自动停车很重要)中最大限度地提高性能。作为近场传感设计的一部分,他们使用广角镜头覆盖大视场(水平方向容易超过180度)。因此,算法设计必须与传感失真作斗争,而传感失真是一个相当重要的挑战,因为计算机视觉中的大多数学术文献都集中在直线摄像机上,或者最多是只有轻微径向失真的摄像机上。
设计停车系统有很多挑战。由于功能安全,事故风险和消费者舒适性(例如,汽车不能停放使得驾驶员无法打开他们的门)方面,因此具有高精度要求。基础设施相对未知,就可能存在动态相互作用的物体,如车辆,行人,动物等。不同的环境条件也可能发挥重要作用,例如,低光照条件和雨、雾等恶劣天气可显著抑制精度和检测范围,还可能限制低功率嵌入式系统在商业方面上可用的计算能力。另一方面,与全自动驾驶相比,停车场景在可能性方面受到更多限制。车速很低,为决策提供了足够的处理时间。摄像机的运动受到明确的主要区域的限制。基础设施可能有助于解决这个问题,特别是找到并导航到空的停车位。在这项工作中,我们不讨论任何基础设施都支持,作者认为这将是自动停车解决方案的重要组成部分。
“自动停车”一词可以指智能基础设施,它通常是多层的或嵌入汽车中的智能电子系统,来管理汽车在机械停车场的位置。一个简单的文献检索表明,大多数结果与这个含义相对应并且最接近基于全视觉的自动停车系统,而不是我们使用的含义。 这些论文仅关注计算机视觉算法。 相反,在本文中,我们的目的是在详细说明用例和扩展所需的基本计算机视觉模块方面,更全面地回顾计算机视觉在停车中的使用。
-
- 本文的结构
图3给出了设计自动停车系统时决策流的高级概述(实际上,大多数ADAS功能能通过自适应),以及每个阶段需要考虑的一些设计决策。设计中最大的限制因素是硬件选择,因为与商用电子系统相比,汽车系统具有更大的限制(如成本、安全系数、标准遵从性和热约束)。基于这些原因,我们在第2节中首先讨论硬件,在这里我们考虑了ECU、摄像头和处理组件的实际系统考虑。考虑到已定义的硬件限制,下一步是了解用例:即,就最终用户功能而言,系统的目标是什么?因此,第3节详细介绍了各种重要的停车使用案例,以及视觉系统如何处理每个场景。最后,在已知硬件限制和定义最终用户目标的情况下,设计人员必须选择适当的算法来实现系统需求。第4节讨论了实现高水平自动停车系统所需的各种构建块视觉算法。在第5节中,我们将回到系统级的主题,讨论如何将所有内容结合在一起、各种挑战和局限性,并简要介绍下一代停车视觉功能。
- 硬件组件
在本节中,我们将概述构成停车系统的系统组件。我们强调了安全方面的作用和由于商业方面的计算限制。
2.1.电子控制单元系统和接口电子设备
在高级摄像系统中,有两种类型的摄像系统。独立摄像头,带有小型嵌入式系统,紧密集成在摄像纪元的外壳中。这对于像后视摄像头这样的小型应用来说是非常有效的。但对于更复杂的应用,相机通常通过额外的接口电子设备连接到强大的外部SoC。如图5所示,对于具有4个摄像头输入的典型环绕视图系统,必须将空间分离的摄像头连接到中央ECU。与其他系统相比,视频的数据带宽要求较高,这给SoC带来了许多挑战和局限。传感器的原始数字输出通常为10/12位,但SOC的视频输入端口可能仅支持8位。这要求外部ISP将深度压缩到8位。其他一些简单的因素,如分辨率和帧速率,可能会使系统要求翻倍。SOC和摄像头之间的连接通常通过双绞线或同轴电缆进行连接。
图5说明了使用的两种替代方法。由于1 Gbps/道的高带宽特性,使用序列化器和反序列化器(合称SERDES)以及通过同轴电缆发送信号更为常见。同轴电缆接口采用欧洲原始设备制造商使用的Fakra连接器,以太网接口和双绞线是一种更便宜的选择,但它的带宽相对有限,只有100 Mbps。为了对其进行补偿,在传输之前执行运动jpeg,由此推断出具有完整ISP和MJPEG转换的限制。另一种方法可以利用SOC ISP。如图4所示,以太网摄像机的两端还需要更复杂的电子电路。千兆位以太网可以用来实现更高的带宽,但它更昂贵,并破坏了低成本的目的。
大多数现代SoC接口都是数字和串行的。MIPI(移动工业处理器接口)标准化了相机输入CSI(相机串行接口)和DSI(显示串行接口)的串行接口。这些接口作为下面的LVDS连接实现。CSI2是当前一代,带宽为1 Gbps/道。Oldi是一个开放的LVDS接口,可以在裸机LVDS上工作。有些SOC除了提供串行接口外,还提供并行接口。虽然并行接口提供了更大的带宽,但它们需要更大的布线和更复杂的电路,这是不可扩展的。
车辆接口,如CAN和Flexray,将信号从车辆传送到SOC。对于ADAS系统,与里程计相关的信号如车轮速度、横摆角速度等是需要一些里程计知识的有用算法。它还可以提供环境光照水平、雾/雨传感器等信号,有助于根据外部条件调整算法。常用的通信协议是CAN和FlexRay,因为它们是低负载数据。对于高负载信号,有时使用以太网协议。FlexRay是一种改进版的CAN(更快更坚固),因此也更昂贵。CAN FD(灵活的数据速率)是改进的第二代CAN。许多汽车SOC与CAN有直接接口,而有些SOC还支持Flexray。
如前所述,储存系统是视觉系统的一个关键因素。涉及到几种类型的内存-主内存通常是DDR,它通常从256MB开始,并可以转到几个Gbs。图像和中间处理数据位于此处。高端发电系统使用DDR3,而且趋势似乎朝着DDR4发展。还有闪存/EEPROM内存,用于存储持久数据,如启动代码、配置参数,有时还存储算法输出的统计信息。在SoC上,芯片内存(L3)按几个MBS的顺序排列,这些MBS在芯片上的不同内核之间共享,可以用作从DDR流的高速缓冲区。处理器(l1和l2)内也有高速缓存或内部存储器,其访问速率接近处理器的时钟频率。DMA在视觉系统中很常见,用于将数据从DDR缓冲到L2/L3存储器。重要的是要了解内存的层次结构,它们在大小和速度上具有相反的层次结构。它们通过SOC中的内存接口MEMIF进行仲裁。在这样的系统中,内存常常成为一个严重的瓶颈,这一事实常常不被忽视或忽视。对这些算法进行详细的带宽分析,以确定存储器的速度和MEMIF的带宽。
调试通常是通过JTAG和一个IDE完成的,在本机ECU中通常不支持这一点,在开发阶段需要一个断接板。对于以太网系统,通过文件系统直接暴露ECU内存。有时,调试也通过UART日志记录来完成。其他外围设备如SPI(用于串行通信)、I2c(主从电子同步)、GPIO(通用插脚)等与其他电子系统一样是标准的。
2.2. 摄像机
相机组件通常包括成像传感器、光学系统和可选的ISP硬件。
光学系统由透镜、光圈和快门组成。这些组件通过焦距(f)、孔径(d)、视场(fov)和光学传递函数(otf)捕捉到相机矩阵中。
调制传递函数(MTF)对应于曝光供相机拍摄的像素数。许多相机可以通过在图像传感器上设置适当的寄存器来选择可用活动像素的子集。更高数量的活动像素直接意味着计算机视觉算法在检测范围和精度方面的改进。但是,重要的是要记住,拍摄图像的分辨率受到可用像素数量和透镜光学分辨率的限制(由所附照相机透镜的整体透镜质量决定,受透镜中元素衍射的限制)。此外,随着传感器物理像素尺寸的增大,凸轮时代的空间分辨率受到影响。使用MTF可以测量相机和镜头组合的整体分辨率。
畸变镜片通常用于汽车,以获得更大的视野。这会在图像中产生非线性失真,通常会针对查看功能进行校正。对于处理部分,由于线性耳朵图像在不失真的情况下,由低分辨率区域(向边缘)向高分辨率上采样所产生的噪声,有时更适合直接在鱼眼图像上运行该算法。典型的前向ADAS功能,如前碰撞警告、车道偏离警告和前照灯检测,将使用视野狭窄的透镜(如40至60)。然而,近距离观察(如俯视图和后视图)和检测应用(如后过保护和行人检测)需要提供更宽视野的摄像头(图2)。然而,广角镜头的使用带来了复杂的情况,因为镜头的设计更为复杂,这导致了描述摄像机项目的数学更加复杂。基本上,世界上的一条直线不再被摄像机成像为一条直线——图像中引入了地理测量畸变。参考文献7详细介绍了广角镜头在汽车环境中的应用。
Omnivision和Aptina是常用的传感器供应商,但也有其他制造商可供选择。摄像机的视觉质量已经显著提高。影响系统设计的主要因素是分辨率(1 MP到2 MP,以及更高)、帧速率(30到60 fps)和比特深度(8到12位)。在改进这些方面有明显的好处,但是它们带来了显著的内存带宽开销。
图像传感器的动态范围描述传感器可以捕获的亮度范围的下限和上限之间的比率。图像传感器捕捉到的低于下限的部分场景将被剪切为黑色或低于传感器的噪声地板,反之,高于上限的部分将被图像传感器饱和为白色。对于传感器变为高动态范围(HDR)的动态范围没有特定的限制,而该术语通常适用于采用特定机制来实现比传统传感器更高动态范围的图像传感器类型。请注意,图像传感器的亮度上限和下限没有固定。事实上,许多传感器可以根据场景的内容改变像素的曝光时间(也称为快门速度),从而动态地调整限制-明亮的场景通常具有较短的曝光时间,而黑暗的场景具有较长的曝光时间。作为一个基本比率,传感器的动态范围通常以分贝表示。动态范围是汽车视觉的重要组成部分,由于汽车视觉算法的无约束性,经常会出现一个动态范围大的场景,在这个场景中,汽车视觉算法将发挥作用。高动态范围场景的明显例子是,当主车进入或驶出隧道时,或在黄昏和黎明时,当太阳在天空中较低时。
像素的灵敏度测量像素在单位时间内对照度的响应。许多因素都会影响像素的灵敏度,例如硅纯度、像素结构设计和微透镜设计。然而,最大的因素之一就是像素的物理尺寸。具有更大面积的像素将具有收集更多光子的能力,因此对较低的照明度有更大的响应。然而,通过增加像素尺寸来增加灵敏度将有助于降低参考文献[5]的空间分辨率。
信噪比可能是来自信号处理背景的工程师最直观的特性。它是信号的强度(或水平)与成像器中噪声源的比率。主要问题是图像传感器制造商用于测量噪声的方法是非标准的,因此基于SNR的不同图像传感器类型之间的绘图比较是不同的。另外,所采用的SNR将基于固定场景,而所接收图像的实际SNR将取决于场景,并且受到应用于信号的像素曝光时间和增益因子以及其他因素的影响。例如,相机具有较长曝光时间和应用于输出的较高增益因子的暗场景将导致具有SNR的图像。温度通常也在图像中的噪声水平中起很大作用 - 相机设备的热管理在减少输出图像中存在的噪声量方面起着关键作用。这可以通过设计一个凸轮系统来辅助,该系统使图像传感器尽可能地与热源隔离。图像中的噪声水平对任何算法的性能都有直接影响 - 在存在噪声的情况下,所有算法都会在某种程度上降低。
传感器的最大帧速率直接影响算法的时间响应。 对于设计用于在较高车辆速度下工作的算法,较高的帧速率是重要的,因为系统的必要响应时间将较低。 但是,需要考虑系统因素。 例如,较高的帧速率意味着您可以将较短的时间段应用于应用程序的
资料编号:[3158]