本发明属于无人驾驶测试,具体涉及一种无人驾驶对抗测试场景生成方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、无人驾驶是当前国际的前沿热点和经济转型发展的重要支撑,有可能大大改善交通的安全性、流动性和可持续性,因此吸引了全世界工业、专业组织和学术机构的关注。但无人驾驶汽车的安全性能仍然大大低于人类驾驶员的水平。
3、提高无人驾驶汽车安全性能的一个关键瓶颈是安全验证的效率严重不足。所以为无人驾驶汽车生成大量、多样且能对无人驾驶车产生干扰、具有对抗性的驾驶场景,来对其进行安全性测试,提前发现无人驾驶的缺陷是非常有必要的,然而,由于无人驾驶在现实中所能遇到的场景是无穷的,而能对无人驾驶汽车产生对抗的场景又过于稀缺,在真实世界里复现这些场景成本太高。因此现在的无人驾驶测试一般都采用虚拟仿真技术进行。但是传统的自动驾驶仿真测试场景随机自动生成方法会产生大量单一和无效的场景而且生成场景效率低。而一些基于强化学习的自动驾驶仿真测试场景随机自动生成方法存在无人驾驶车辆在运行过程中与环境缺少交互、强化学习奖励收敛慢甚至无法收敛、生成的测试环境与真实环境差异大等缺点。
4、因此,生成大量复杂、对无人驾驶汽车有对抗性且和真实环境相似的场景,去提高无人驾驶测试场景生成效率是非常重要的。
技术实现思路
1、为了解决上述问题,本发明提出了一种无人驾驶对抗测试场景生成方法及系统,本发明通过强化学习在仿真过程中不断的训练模型,让这些智能体车学会在驾驶过程中与被测车发生对抗交互,该方法训练出的多辆智能体车不仅具有强化学习的强探索特性,而且将改进型人工势场作为mappo的奖励函数,在该奖励函数的引导下,智能体车的行为与人类驾驶员更加相似、驾驶轨迹更加合理。
2、根据一些实施例,本发明的第一方案提供了一种无人驾驶对抗测试场景生成方法,采用如下技术方案:
3、一种无人驾驶对抗测试场景生成方法,包括:
4、启动仿真模拟器,初始化仿真模拟器环境;
5、为避免多辆智能体车之间碰撞,以及考虑多智能体车和被测车之间的对抗动作,为智能体车生成人工势场;
6、采用智能体车前后时间步的人工势场势能差作为奖励函数的参数构建奖励函数;
7、基于人工势场和奖励函数,智能体车与仿真器模拟器环境进行交互,迭代计算奖励直至多智能体近端策略优化算法模型收敛,得到训练好的多智能体近端策略优化算法模型;
8、在仿真模拟器环境中,利用预先训练好的多智能体近端策略优化算法模型控制智能体车的动作进行对抗性测试,生成无人驾驶对抗测试场景。
9、进一步地,所述启动仿真模拟器,初始化仿真模拟器环境,具体为:
10、运行仿真模拟器,生成车道宽为,长为的车道高速环境;
11、环境内生成一辆被测车与辆智能体车,为被测车与智能体车随机设置位置和初始速度。
12、进一步地,所述为避免多个智能体车之间碰撞,以及考虑多智能体车和被测车之间的对抗动作,为智能体车生成人工势场,具体为:
13、根据车辆在不同的情况下受到不同程度的引导力,构建三段式引力场;
14、为避免智能体车之间过于接近导致碰撞,为每辆智能体车添加了一个斥力势场,即智能体车斥力场;
15、根据车辆主动避撞系统的设计原则,获取车道线势场;
16、将车道线势场、三段式引力场和智能体车辆斥力场进行叠加,得到智能体车人工势场。
17、进一步地,所述根据车辆在不同的情况下受到不同程度的引导力,构建三段式引力场,具体为:
18、;
19、式中,d为智能体车距离被测车的距离范围, d1为引力场第一阶段与第二阶段的分界值, d2为引力场第二阶段与第三阶段的分界值。
20、进一步地,所述为避免智能体车之间过于接近导致碰撞,为每辆智能体车添加了一个斥力势场,即智能体车斥力场,具体为:
21、;
22、式中为道路坐标系下其他智能体车的几何中心坐标,当车辆越靠近其他智能体车时,其危险系数会越高;为车辆靠近其他智能体车时的危险势能切换阈值。
23、进一步地,所述根据车辆主动避撞系统的设计原则,获取车道线势场,具体为:
24、;
25、车道线势场势能随道路长度位置的变化函数为:
26、;
27、车道线势场势能随道路长度位置的变化函数为:
28、;
29、其中,和分别为转向避撞区域和过渡区域的纵向范围。
30、进一步地,所述采用智能体车前后时间步的人工势场势能差作为奖励函数的参数构建奖励函数,具体为:
31、;
32、其中,碰撞奖励:
33、;
34、人工势场模型势能变化奖励:
35、;
36、其中,为时刻的人工势场势能,为时刻的人工势场势能,人工势场场模型势能变化奖励为前后两时刻的人工势场势能差。
37、进一步地,所述基于人工势场智能体车与仿真模拟器环境交互,具体为:
38、由交互环境输出全局状态 st,计算每辆智能体车在该状态下的人工势场势能;
39、通过深度神经网络推理,得到最优分散控制策略后,传给智能体车;
40、智能体车根据控制策略,执行动作 at与环境进行交互产生新的状态 st+1;
41、重新计算每辆智能体车的势能,分别计算每辆智能体车前后时间步的人工势场场势能之差和碰撞奖励计算总奖励 rt,从而完成一次交互循环。
42、进一步地,所述迭代计算奖励直至多智能体近端策略优化算法模型收敛,得到训练好的多智能体近端策略优化算法模型,具体为:
43、在每次循环过程中,中间状态数据存储于经验回放池,待收集到的经验达到指定容量时,开始模型训练;
44、对于每辆智能体车,从经验回放池中随机采样一个批次的中间状态数据经验,提供给策略网络和价值网络;
45、通过计算策略网络和价值网络的梯度,并通过这些梯度值来更新网络的参数;
46、重复智能体车与环境交互和模型训练操作直至网络收敛,得到训练好的多智能体近端策略优化算法模型。
47、根据一些实施例,本发明的第二方案提供了一种无人驾驶对抗测试场景生成系统,采用如下技术方案:
48、一种无人驾驶对抗测试场景生成系统,包括:
49、初始化模块,被配置为启动仿真模拟器,初始化仿真模拟器环境;
50、环境交互模块,被配置为避免多辆智能体车之间碰撞,以及考虑多智能体车和被测车之间的对抗动作,为智能体车生成人工势场;
51、奖励函数构建模块,被配置为采用智能体车前后时间步的人工势场势能差作为奖励函数的参数构建奖励函数;
52、迭代训练模块,被配置为基于人工势场和奖励函数,智能体车与仿真器模拟器环境进行交互,迭代计算奖励直至多智能体近端策略优化算法模型收敛,得到训练好的多智能体近端策略优化算法模型;
53、场景生产模块,被配置为在仿真模拟器环境中,利用预先训练好的多智能体近端策略优化算法模型控制智能体车的动作进行对抗性测试,生成无人驾驶对抗测试场景。
54、与现有技术相比,本发明的有益效果为:
55、本发明对传统的人工势场法进行了改进,将改进后人工势场与多智能体近端策略优化(multi-agent proximal policy optimization, mappo)算法相结合,形成了一种基于mappo的危险场景生成框架;将被测试车周围的车辆视为智能体车,该框架训练出的多智能体车不仅具有强化学习的强探索特性,而且在行车危险场的引导下,智能体车的行为与人类驾驶员更加相似、驾驶轨迹更加合理。智能体车学会在驾驶过程中与被测车发生对抗交互,从而让被测试的自动驾驶车面对更为复杂的危险场景,加速了自动驾驶测试。
56、本发明将改进后的人工势场模块与mappo算法结合,设计了一种新的奖励函数,从而形成了基于mappo的危险场景生成框架,该框架可以用于控制多个智能体车与被测车辆进行对抗交互,人工势场通过构造目的地引力势场和周边障碍斥力势场,可以描述交通状态并为无人驾驶的局部路径规划提供依据。将人工势场改进为单智能体车强化学习算法的奖励函数,会使智能体车的行驶轨迹更加真实,但直接作为mappo算法的奖励函数可能导致多智能体车无法高效地对被测车产生协同对抗效果,同时减弱了强化学习算法的探索特性。为了解决这一问题,对传统的人工势场做出了改进,改进后的人工势场根据智能体车在不同阶段的引力场具有不同的引导作用。
57、本发明提出的框架具有以下特点:与将交通事故再现为测试场景的研究相比,强化学习是一种具有探索性和自学习性的决策器,利用强化学习能更大限度地寻找多样的对抗场景,使本发明的模型能够生成更多记录事故中不存在的关键测试场景。与现有的基于强化学习的自动驾驶测试技术相比,框架结合了改进后的人工势场,使智能体车的行为更加符合现实世界的规律,生成的危险场景更有效。改进后的人工势场与强化学习结合能很好地弥补强化学习奖励函数设计困难的问题,使智能体车获得的奖励更加密集。
1.一种无人驾驶对抗测试场景生成方法,其特征在于,包括:
2.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述启动仿真模拟器,初始化仿真模拟器环境,具体为:
3.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述为避免多个智能体车之间碰撞,以及考虑多智能体车和被测车之间的对抗动作,为智能体车生成人工势场,具体为:
4.如权利要求3所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述根据车辆在不同的情况下受到不同程度的引导力,构建三段式引力场,具体为:
5.如权利要求3所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述为避免智能体车之间过于接近导致碰撞,为每辆智能体车添加了一个斥力势场,即智能体车斥力场,具体为:
6.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述根据车辆主动避撞系统的设计原则,获取车道线势场,具体为:
7.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述采用智能体车前后时间步的人工势场势能差作为奖励函数的参数构建奖励函数,具体为:
8.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述基于人工势场智能体车与仿真模拟器环境交互,具体为:
9.如权利要求1所述一种无人驾驶对抗测试场景生成方法,其特征在于,所述迭代计算奖励直至多智能体近端策略优化算法模型收敛,得到训练好的多智能体近端策略优化算法模型,具体为:
10.一种无人驾驶对抗测试场景生成系统,其特征在于,包括: