基于强化学习的直线路径光顺毕业论文
2021-11-06 23:01:31
摘 要
本文借助强化学习中的深度确定性策略梯度(DDPG)算法,使用深度神经网络的新型CNC运动轨迹平滑算法体系结构,用来解决实际工业应用中加长刀具路径的平滑问题,所得结果对于加工轨迹进行实时的光顺,以提高加工效率和质量具有重要的指导意义。
论文主要研究了基于强化学习的路径光滑策略,进行仿真实验验证。
研究结果表明:数据在基于强化学习的路径光滑算法中不要求提前给定,这种算法借助加工参数对动作的奖励获得学习信息来更新神经网络参数,非常适合在线路径光顺。
关键词:深度确定性策略梯度(DDPG)算法;路径光滑策略;仿真实验验证
Abstract
In this article, the Deep Deterministic Policy Gradient (DDPG) algorithm is used for gain learning and a new architecture for smoothing trajectories for neural networks in deep neural networks is used to solve the problem of extending toolpath smoothing in practical industrial applications. Real-time smoothing is important for improving processing efficiency and quality.
The work mainly examines the strategy of path smoothing based on the learning of the gain and carries out simulation experiments to check this.
The results of the study show that data does not have to be given in advance for the enhanced learning, but that the learning of the parameters of the neural network is updated by processing parameters to reward the action, which is very suitable for smooth online paths.
Key Words:Deep Deterministic Policy Gradient(DDPG) algorithm;Path smoothing strategy;Simulation experiment verification
目 录
第1章 绪论 1
1.1 论文研究背景 1
1.2 轨迹规划平滑算法国内外研究现状 1
1.3 研究目的意义和内容 2
1.3.1 研究目的及意义 2
1.3.2 研究内容 2
第2章 强化学习算法概述 4
2.1 引言 4
2.2 强化学习简介 4
2.2.1 定义 4
2.2.2 基本模型和原理 4
2.3 深度确定性策略梯度(DDPG)算法 5
2.3.1 定义和应用场景 5
2.3.2 算法相关基本概念定义 6
2.3.3 DDPG实现框架和算法 7
第3章 平滑路径的轨迹规化 10
3.1 引言 10
3.2 建立基于强化学习的数控机床模型 10
3.2.1 构建工具路径环境 11
3.2.2 构建伺服命令动作 12
3.2.3 构建当前状态要素模型 13
3.2.4 构建评价奖励模型 14
3.3 训练基于强化学习的NNC算法 16
3.3.1 基于神经网络的代理的构建 16
3.3.2 算法的训练方法 16
第4章 仿真及结果分析 18
4.2 基于matlab的仿真 18
4.2 仿真实验结果分析 20
第5章 结论与展望 21
5.1 研究工作总结 21
5.2 研究展望 21
致谢 22
参考文献 23
第1章 绪论
1.1 论文研究背景
在21世纪,衡量数控系统加工能力的关键标志之一,便是以高精度高速加工为要求的数控加工技术。复杂精密的工件广泛应用于国民生产的各个领域中,例如模具制造、汽车、航空航海等领域。长久以来,阻碍现代数控技术发展的有许多关键因素。其中,加工刀具路径轨迹平滑优化最为显著。
刀具路径的平滑生成一直都是众多学者探讨研究的问题,这对于数控加工的质量以及效率有着决定性作用。在CNC加工中,常用的路径命令包括直线路径。 但是,在非光滑直线路径的拐角处进给速度不连续的问题会导致机床剧烈振动,这些工具运动的不连续性导致计算机数控(CNC)效率低下,影响工件表面加工质量。
工件的生产效率以及加工质量往往取决于刀具路径的连续光顺。高速高精度数控加工的发展极大依赖于数控运动路径的规划与平滑处理。为了实现高速连续运动,广泛使用了基于预规划方法的拐角平滑算法。但是,很难在实时系统中优化平滑轨迹。为了有效地获得平滑轨迹,本文采用了一种基于强化学习训练神经网络的直接轨迹平滑算法。
1.2 轨迹规划平滑算法国内外研究现状
高速计算机数控(CNC)加工过程中,通常依赖计算机辅助制造(CAM)软件生成数控(NC)文件。由此产生了一种参数曲线插值算法[1—3],然而大多数CNC系统都不支持参数曲线的直接插值。在这种情况下,曲线刀具路径由CAM软件根据弦长规格使用一系列G01线段离散化。这也是将刀具路径信息从上层CAM系统传输到CNC系统的最常用方法。广大研究生产人员广泛使用了平滑算法以实现平稳的连续运动。然而,实时地产生平滑的轨迹是不易实现并且极具挑战性的。因此,研究人员在最近的研究中将越来越多的目光和精力投向了平滑算法的研究上。
众多的平滑算法分为两类:局部平滑算法和全局平滑算法。第一种算法的目的是在两个相邻线段的拐角处融合G01线段。例如,几何平滑方法采用了在两行直线轨道的中间插入了一个弧的方法[4],轨迹达到了连续速度(C2),随后使用高阶曲线(例如二次曲线,三次曲线,五次曲线,B样条曲线或其他曲线)来实现围绕拐角轮廓的连续加速(C3)运动以及更高等级的连续加速运动。总而言之,参数曲线的算法已经被广泛研究使用,但是存在瓶颈限制了此类算法发展。这是因为大多数情况下,自由曲线基本组成平滑的拐角路径,除此之外,还有与实时曲线插值相关的问题。
近年来,已经发展出了更进一步的方法。单步计划的特别之处便是可以在约束条件下,使用直接方式规划各个轴的运动过程,从而达到最大化每个轴的进给性能的目的。这种方法不仅简化了计划过程还减轻了计算负担。毫无疑问,局部平滑算法流程简单,并且有效地限制轮廓误差,这对于现实高速加工中的加工精度质量至关重要。由于大多数局部平滑算法都采用了线性移动(G01线段)足够长的假定,所以可以在不干扰连续拐角融合的情况下寻找到合适的解决方案。但是,在线性工具路径中,许多线性运动都小于1 mm,算法必须处理复杂的拐角重叠问题。局部平滑算法在这种情况下不能令人满意地处理小长度段。
全局平滑算法通常采用拟合方法将连续的线段处理变成参数曲线。所以这种算法在平滑短片段方面非常出色。参数曲线具有较高的平滑度;因此,与局部平滑算法相比,全局平滑算法可提供更高的切割效率。Yeh和Su采用最小二乘法将离散数据点拟合到NURBS曲线中[5]。Wang等人提出了连续短程序段准则,该准则最初将G01代码分为几组,然后确定了对组中所有点进行插值的样条[6]。尽管连续的参数曲线可以达到最终的平滑度,但是全局平滑算法的原始轨迹特征比局部平滑算法的可维护性稍差;同时,拟合算法需要大量的计算和不确定的迭代过程来实现误差约束,这在实时CNC系统中是不可取的。