基于强化学习的自主导航控制算法研究文献综述
2020-04-14 19:51:05
1 目的及意义
1.1 研究目的
随着计算机科学技术的迅速发展,人工智能(Artificial Intelligence)作为研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,开始走进人们的视野。与此同时,基于人工智能算法的各种产品及应用也应运而生。强化学习(Reinforcement learning)作为目前AlphaGo、AlphaGo Zero等人工智能软件的核心技术,随着高性能计算、大数据和深度学习技术的突飞猛进,也得到了更为广泛的关注和更加快速的发展。因此,强化学习从计算机博弈中的巨大成功延申开来,渗透到了智能驾驶,过程优化决策与控制等领域。
关于自主导航智能驾驶这一方面的研究并不少见,但关乎于人类生命安全,财产安全的应用势必要经过反复模拟,深思熟虑地研究。由于在实际生活中存在着环境、天气、载具状态等多种因素的影响,存在着大量的不确定性,模型的构建变得非常困难,机器需要学习的样本也越来了复杂,这也是目前自主导航面临的一个难题。
本课题针对这一难题,尝试引入前文提到的强化学习算法,结合并完善目前的环境与载具模型,拟设计出基于强化学习的自主导航控制算法,提高机器适应实际环境的能力。
1.2 研究意义
自主导航智能驾驶作为战略性新兴产业的重要组成部分,是由互联网时代到人工智能时代过程中,出现的第一个精彩乐章,也是世界新一轮经济与科技发展的战略制高点之一。发展自主导航智能驾驶,对于促进国家科技、经济、社会、生活、安全及综合国力有着重大的意义。
从技术方面看,载具开始与网络实现互联。智能交互系统的背后是将载具机械语言和载具联网电子信息语言统一起来,所有信息可以上传下达,实现物与人、物与云的互联。
从交通方面看,自主导航智能驾驶将大大提升生产效率和交通效率,并有可能成为人工智能首先突破的领域。自主导航智能驾驶将是未来解决交通拥堵的重要枝术,能大大提升生产效率和交通效率。由于智能驾驶依靠传感器感知障碍,或者通过4G/DSRC与道路、航道设施通信,因此需要布置引导电缆、磁气标志列、雷达反射性标识、传感器、通信设施等。自主导航智能驾驶可以为构建将先进的信息技术、数据通讯技术以及计算机技术等有效地综合运用于整个交通管理体系和载具而建立起来的一种大范围、全方位发挥作用的、实时、准确、高效、先进的运输系统提供支撑。
从经济方面看,自主导航智能驾驶是信息化与工业化融合的典型代表。自主导航智能驾驶不仅能使交通工具产品本身的价值呈现几何级数增长,还能为相关领域提供全新的解决方案,与新能源汽车、机械、交通、电子、信息、互联网、通讯、能源、环保、城市建设等众多领域进行深入合作,实现协同创新、融合发展。
从社会方面看,自主导航智能驾驶将缓解劳动力短缺的矛盾。自主导航智能驾驶能够为解决劳动力短缺引起的经济问题和社会问题创造良机。比如,智能驾驶将推动载具所有权形式和使用方式的改变,既能够有效降低载具出行成本,也能够缓解劳动力短缺。
1.3 国内外研究现状
自主导航控制系统为代表的智能化技术将对交通工具的产业生态变革产生了重大影响。目前自动导航技术的实现出现了 2 条路径:以传统车企为主的渐进式发展路线、以科研机构和 IT 企业为主的颠覆式发展路线。但强化学习始终作为一种最具潜力的方法贯穿其中。
强化学习的思想从20世纪初便被提出,经过了将近一个世纪的发展。在自主导航控制领域,科研人员力求不断提升强化学习算法的快速收敛性和泛化性能,并将强化学习新理论和新算法应用于移动机器人和自主驾驶车辆上。