本发明专利申请涉及人工智能领域,具体涉及一种多智能体围捕方法和系统。
背景技术:
1、多智能体围捕是指控制多个智能体限制目标的行动自由,最终以一定的队形包围目标。多智能体围捕具有广泛的现实应用前景和价值,然而多智能体围捕任务仍存在着两个问题:障碍物场景下的围捕问题以及围捕快速目标的问题。
2、障碍物场景下,现有技术将障碍物视为围捕任务阻碍,使智能体在完成围捕的同时还要兼顾避障任务;围捕快速目标时,目标能够灵活改变移动方向,导致次优队形或不完整的包围圈,对智能体的围捕、避撞能力提出了更高的要求。
技术实现思路
1、为克服上述现有技术的不足,本发明专利申请提出一种多智能体围捕方法,包括:
2、获取多个智能体在环境场景中的观测信息;
3、基于所述观测信息,通过预先分别部署在各所述智能体上的策略网络,生成智能体动作,控制所述智能体围捕目标,完成围捕任务;
4、其中,所述策略网络为通过预先构建的智能体深度强化学习神经网络模型得到;所述智能体深度强化学习神经网络模型以采用狮群围捕策略得到多个智能体与训练环境场景的交互信息作为训练数据,进行训练得到,所述交互信息包括当前的智能体的观测信息、智能体动作、智能体的奖罚信息和下一时刻观测信息。
5、进一步地,所述智能体深度强化学习神经网络模型的构建,包括:
6、步骤s1:基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数;
7、步骤s2:循环步骤s1,直到所述训练次数达到预先设定的难度调整次数时,减小智能体对逃逸目标的限制半径,再次循环步骤s1,直到所述限制半径减小到预先设置的正常限制半径后不再减少所述限制半径,当训练次数达到预先设置的终止训练次数时,完成智能体深度强化学习神经网络模型的构建;
8、其中,所述训练环境场景包括:智能体、障碍物和逃逸目标;所述观测信息包括:智能体自身的绝对位置信息、智能体自身的速度、其他智能体的相对位置信息、其他智能体的速度、逃逸目标的相对位置信息和逃逸目标的速度。
9、进一步地,所述智能体深度强化学习神经网络模型包括:每个智能体的策略网络和所有智能体共用的价值网络;所述基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数,包括:
10、步骤s11:基于多个智能体在搭建的训练环境场景中的观测信息,通过对应的策略网络,得到智能体动作,并将所有智能体动作上传到所述价值网络中,得到所有智能体动作的动作价值,并根据所述动作价值调整所述策略网络的网络参数;
11、步骤s12:基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数;
12、步骤s13:将智能体的观测信息、智能体动作、智能体的奖惩信息和下一时刻观测信息作为交互信息,并记录交互次数,作为训练次数;
13、其中,所述环境状态信息至少包括下述的一种或多种:智能体状态信息、逃逸目标状态信息和障碍物状态信息。
14、进一步地,所述基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数,包括:
15、基于当前的环境状态信息,根据狮群围捕策略,确定当前的围捕实施阶段;基于当前的奖惩相关信息结合采样指示函数,计算得到贡献角;
16、基于当前的围捕实施阶段对应的奖励函数机制,结合当前的智能体动作和贡献角,得到智能体的奖惩信息;
17、根据所述智能体的奖惩信息,更新每个智能体对应的策略网络的权重参数;
18、其中,所述围捕实施阶段包括:协同包围阶段和协同收缩阶段,所述奖惩相关信息包括:智能体信息、障碍物信息、逃逸目标位置、从逃逸目标位置向所有运动方向进行均匀采样的次数和采样指示函数。
19、进一步地,所述贡献角的计算式如下:
20、
21、其中,为训练环境场景中智能体或障碍物中贡献者的贡献角,e为训练环境场景中的智能体或障碍物,c为贡献者,k为从逃逸目标位置向所有运动方向进行均匀采样的次数,为从逃逸目标位置进行第l次采样方向的训练环境场景中的智能体或障碍物的贡献者的采样指示函数。
22、基于同一发明构思,本发明专利申请还提供了一种多智能体围捕系统,包括:观测信息获取模块和多智能体围捕模块;
23、所述观测信息获取模块,用于获取多个智能体在环境场景中的观测信息;
24、所述多智能体围捕模块,用于基于所述观测信息,通过预先分别部署在各所述智能体上的策略网络,生成智能体动作,控制所述智能体围捕目标,完成围捕任务;
25、其中,所述策略网络为通过预先构建的智能体深度强化学习神经网络模型得到;所述智能体深度强化学习神经网络模型以采用狮群围捕策略得到多个智能体与训练环境场景的交互信息作为训练数据,进行训练得到,所述交互信息包括当前的智能体的观测信息、智能体动作、智能体的奖罚信息和下一时刻观测信息。
26、进一步地,所述系统还包括用于构建智能体深度强化学习神经网络模型的模型构建模块,所述模型构建模块,具体用于:
27、步骤s1:基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数;
28、步骤s2:循环步骤s1,直到所述训练次数达到预先设定的难度调整次数时,减小智能体对逃逸目标的限制半径,再次循环步骤s1,直到所述限制半径减小到预先设置的正常限制半径后不再减少所述限制半径,当训练次数达到预先设置的终止训练次数时,完成智能体深度强化学习神经网络模型的构建;
29、其中,所述训练环境场景包括:智能体、障碍物和逃逸目标;所述观测信息包括:智能体自身的绝对位置信息、智能体自身的速度、其他智能体的相对位置信息、其他智能体的速度、逃逸目标的相对位置信息和逃逸目标的速度。
30、进一步地,所述模型构建模块的智能体深度强化学习神经网络模型包括:每个智能体的策略网络和所有智能体共用的价值网络;所述基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数,包括:
31、步骤s11:基于多个智能体在搭建的训练环境场景中的观测信息,通过对应的策略网络,得到智能体动作,并将所有智能体动作上传到所述价值网络中,得到所有智能体动作的动作价值,并根据所述动作价值调整所述策略网络的网络参数;
32、步骤s12:基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数;
33、步骤s13:将智能体的观测信息、智能体动作、智能体的奖惩信息和下一时刻观测信息作为交互信息,并记录交互次数,作为训练次数;
34、其中,所述环境状态信息至少包括下述的一种或多种:智能体状态信息、逃逸目标状态信息和障碍物状态信息。
35、进一步地,所述模型构建模块基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数,包括:
36、基于当前的环境状态信息,根据狮群围捕策略,确定当前的围捕实施阶段;基于当前的奖惩相关信息结合采样指示函数,计算得到贡献角;
37、基于当前的围捕实施阶段对应的奖励函数机制,结合当前的智能体动作和贡献角,得到智能体的奖惩信息;
38、根据所述智能体的奖惩信息,更新每个智能体对应的策略网络的权重参数;
39、其中,所述围捕实施阶段包括:协同包围阶段和协同收缩阶段,所述奖惩相关信息包括:智能体信息、障碍物信息、逃逸目标位置、从逃逸目标位置向所有运动方向进行均匀采样的次数和采样指示函数。
40、进一步地,所述模型构建模块的贡献角的计算式如下:
41、
42、其中,为训练环境场景中智能体或障碍物中贡献者的贡献角,e为训练环境场景中的智能体或障碍物,c为贡献者,k为从逃逸目标位置向所有运动方向进行均匀采样的次数,为从逃逸目标位置进行第l次采样方向的训练环境场景中的智能体或障碍物的贡献者的采样指示函数。
43、与最接近的现有技术相比,本发明专利申请具有的有益效果如下:
44、本发明专利申请提供了一种多智能体围捕方法和系统,包括:获取多个智能体在环境场景中的观测信息;基于所述观测信息,通过预先分别部署在各所述智能体上的策略网络,生成智能体动作,控制所述智能体围捕目标,完成围捕任务;其中,所述策略网络为通过预先构建的智能体深度强化学习神经网络模型得到;所述智能体深度强化学习神经网络模型以采用狮群围捕策略得到多个智能体与训练环境场景的交互信息作为训练数据,进行训练得到,所述交互信息包括当前的智能体的观测信息、智能体动作、智能体的奖罚信息和下一时刻观测信息;本发明专利申请的智能体深度强化学习神经网络模型以采用狮群围捕策略得到多个智能体与训练环境场景的交互信息作为训练数据,进行训练得到,采用狮群围捕策略将智能体的围捕阶段进行划分,使智能体的围捕队形更加均匀合理,有效提高了围捕快速目标的成功率。
1.一种多智能体围捕方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述智能体深度强化学习神经网络模型的构建,包括:
3.如权利要求2所述的方法,其特征在于,所述智能体深度强化学习神经网络模型包括:每个智能体的策略网络和所有智能体共用的价值网络;所述基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数,包括:
4.如权利要求3所述的方法,其特征在于,所述基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数,包括:
5.如权利要求4所述的方法,其特征在于,所述贡献角的计算式如下:
6.一种多智能体围捕系统,其特征在于,包括:观测信息获取模块和多智能体围捕模块;
7.如权利要求6所述的系统,其特征在于,所述系统还包括用于构建智能体深度强化学习神经网络模型的模型构建模块,所述模型构建模块,具体用于:
8.如权利要求7所述的系统,其特征在于,所述模型构建模块的智能体深度强化学习神经网络模型包括:每个智能体的策略网络和所有智能体共用的价值网络;所述基于当前时刻的多个智能体在训练环境场景中的观测信息,得到智能体动作和相应的动作价值,并基于所述智能体动作和相应的动作价值,采用狮群围捕策略结合奖励函数机制,得到交互信息,并记录交互次数,作为训练次数,包括:
9.如权利要求8所述的系统,其特征在于,所述模型构建模块基于所述智能体动作和当前的环境状态信息,通过狮群围捕策略结合预先设置的奖励函数机制,得到智能体的奖惩信息和下一时刻观测信息,并根据智能体的奖惩信息,更新各智能体对应的策略网络的权重参数,包括:
10.如权利要求9所述的系统,其特征在于,所述模型构建模块的贡献角的计算式如下: