一种基于拓扑图的强化学习室内导航方法与流程

专利2022-07-07 139

本发明涉及一种导航方法，具体涉及一种基于拓扑图的强化学习室内导航方法，属于基于关系的高效强化学习技术领域。

背景技术：

随着近年来，大数据与人工智能技术以及硬件条件的快速发展，机器学习，深度学习，强化学习逐渐在各个领域中得到了广泛应用。而传统导航方法中，如slam一类的系统是通过将导航任务分割成三个独立任务定位，建图，路径规划来完成的，这样的方式对于建图定位精度要求都较高，同样也浪费了很多资源成本，而强化学习能够以一种端到端网络的形式实现导航任务，而这种方式的问题在于数据效率低以及泛化性能差。因此，迫切的需要一种新的方案解决现有技术中存在的技术问题。

技术实现要素：

本发明的目的是将传统规划算法与强化学习算法进行有机结合来解决强化学习数据效率低下以及针对长时序任务的表现不佳的问题。

为了实现上述目的，本发明的技术方案如下，一种基于拓扑图的强化学习室内导航方法，所述方法包括以下步骤：

s1：初始化智能体所在位置xt，将智能体初始位置作为坐标原点，并初始化拓扑图g,将拓扑图中的结点集合定义为n，连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角rgb图像信息，gt为期望的目标位置对应的rgb图像信息；

s2：根据imagenet数据集预训练出一个resnet18模型，记作

s3：若则新增节点n＝{n0}；其中表示结点对应的视觉特征，x0表示结点所对应的相对位置信息，c0表示当前结点的访问次数。

s4：将与所有节点n中视觉特征进行对比，若则认为拓扑图上还未建立与目标gt相关的节点，此时进入s5，进行待探索节点wt的选取。若则说明找到目标gt对应节点ng,进入s6路径规划阶段。

s5：根据slam模块对当前智能体所在位置xt进行估计,根据位置信息xt以及视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一，根据到达次数对np所有邻居结点进行排序，根据softmax策略进行选择，得到待探索结点wt。

s6:根据目标gt，定位gt所属节点ng与当前位置所对应结点np,针对拓扑图g进行路径规划，得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt

s7：根据wt中的视觉信息以及当前所在位置目标特征输入到策略网络中，依据策略网络采样得到行动at,并与环境交互得到st 1,xt 1

s8：若与相似度较高，则认为到达中继目标结点wt，得到奖励 1，反之得到奖励-0.05；

s9：根据新观测值st 1,xt 1来进行拓扑图g更新，并重复s4,s5,s6,s7,s8步骤。

其中，所述步骤s6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。

其中，所述步骤s5中，寻找智能体所属结点np时，根据物理距离以及视觉特征距离同时考量，当且仅当||xt-xp||²<dist1；才认为当前时刻所属结点为np，否则保持所属结点等于上一时刻所属结点。

所述步骤s5中，将探索的机制与拓扑图相结合，具体采用了softmax的策略，即待选择的结点,基于软策略的方式来进行结点选择，能够保证探索的多样性。

其中，所述步骤s9拓扑图建立过程为：根据新观测得到的位置输入xt以及视觉输入st，如果在已建立好的拓扑图上找不到一个高相似度的结点，即mini∈k||xt-xi||>mindist1,那么以当前状态为中心建立一个新的结点，并于上一时刻所在的结点nt-1建立连接关系；若找到一个高相似度的结点，则将当前所处位置xt 1也加入到所属结点n中，并以均值方式来更新结点n中心。

相对于现有技术，本发明具有如下优点，本发明提出了一种将规划算法与强化学习算法进行结合的导航算法，能够通过建立拓扑图的形式建立对环境的抽象表达，进而通过将长时间导航任务在拓扑图上分成较为容易完成的阶段性任务，不仅提升了强化学习的数据效率，同时也提升了强化学习算法在新场景下的探索效率，并且实现了同一场景下不同目标的泛化性。

附图说明

图1强化学习算法a3c示意图；

图2为resnet18,34,50；101；152示意图；

图3整体框架结构图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1-图3，一种基于拓扑图的强化学习室内导航方法，该方法将传统规划算法与强化学习算法相结合：包括以下步骤：

s2：根据imagenet数据集预训练出一个resnet18模型，记作

s3：若则新增节点n＝{n0}；其中表示结点对应的视觉特征，x0表示结点所对应的相对位置信息，c0表示当前结点的访问次数。

s5：根据slam模块对当前智能体所在位置xt进行估计,找到智能体所属的结点np,并将np中到达次数cp加一，根据到达次数对np所有邻居结点进行排序，根据softmax策略进行选择，得到待探索结点wt。

s7：根据wt中的视觉信息以及当前所在位置目标特征输入到策略网络中，依据策略网络采样得到行动at,并与环境交互得到st 1,xt 1

s8：若与相似度较高，则认为到达中继目标结点wt，得到奖励 1，反之得到奖励-0.05；

s9：根据新观测值st 1,xt 1来进行拓扑图g更新，并重复s4,s5,s6,s7,s8步骤。

所述步骤s6中所使用的路径规划阶段算法为dijstra最短路径计算方法。

所述步骤s5中，寻找智能体所属结点np时，根据物理距离以及视觉特征距离同时考量，当且仅当|xt-xp||²<dist1；才认为当前时刻所属结点为np，否则保持所属结点等于上一时刻所属结点。

所述步骤s5中，将探索的机制与拓扑图相结合，具体采用了softmax的策略，即待选择的结点,基于软策略的方式来进行结点选择，能够保证探索的多样性。

所述步骤s9拓扑图建立过程为：根据新观测得到的位置输入xt以及视觉输入st，如果在已建立好的拓扑图上找不到一个高相似度的结点，即mini∈k||xt-xi||>mindist1,那么以当前状态为中心建立一个新的结点，并于上一时刻所在的结点nt-1建立连接关系；若找到一个高相似度的结点，则将当前所处位置xt 1也加入到所属结点n中，并以均值方式来更新结点n中心。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

技术特征：

1.一种基于拓扑图的强化学习室内导航方法，其特征在于，所述方法包括以下步骤：

s2：根据imagenet数据集预训练出一个resnet18模型，记作

s3：若则新增节点n＝{n0}；其中表示结点对应的视觉特征，x0表示结点所对应的相对位置信息，c0表示当前结点的访问次数。

s5：根据slam模块对当前智能体所在位置xt进行估计,根据位置信息xt和视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一，根据到达次数对np所有邻居结点进行排序，根据softmax策略进行选择，得到待探索结点wt。

s7：根据wt中的视觉信息以及当前所在位置目标特征输入到策略网络中，依据策略网络采样得到行动at,并与环境交互得到st 1,xt 1

s8：若与相似度较高，则认为到达中继目标结点wt，得到奖励 1，反之得到奖励-0.05；

s9：根据新观测值st 1,xt 1来进行拓扑图g更新，并重复s4,s5,s6,s7,s8步骤。

2.根据权利要求1所述的基于拓扑图的强化学习室内导航方法，其特征在于，所述步骤s6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。

3.根据权利要求2所述的基于拓扑图的强化学习室内导航方法，其特征在于，所述步骤s5中，寻找智能体所属结点np时，根据物理距离以及视觉特征距离同时考量，当且仅当||xt-xp||²<dist1；才认为当前时刻所属结点为np，否则保持所属结点等于上一时刻所属结点。

4.根据权利要求2所述的基于拓扑图的强化学习室内导航方法，其特征在于，所述步骤s5中，将探索的机制与拓扑图相结合，具体采用了softmax的策略，即待选择的结点,基于软策略的方式来进行结点选择，能够保证探索的多样性。

5.根据权利要求1所述的基于拓扑图的强化学习室内导航方法，其特征在于，所述步骤s9拓扑图建立过程为：根据新观测得到的位置输入xt以及视觉输入st，如果在已建立好的拓扑图上找不到一个高相似度的结点，即mini∈k||xt-xi||>mindist1,那么以当前状态为中心建立一个新的结点，并于上一时刻所在的结点nt-1建立连接关系；若找到一个高相似度的结点，则将当前所处位置xt 1也加入到所属结点n中，并以均值方式来更新结点n中心。

技术总结
本发明涉及一种基于拓扑图的强化学习室内导航方法，针对强化学习在导航任务中数据效率低，算法泛化性能差等问题，本发明结合了传统路径规划方法以及强化学习算法。通过对智能体的相对位置进行估计，进而依据关键位置对场景建立抽象的稀疏拓扑图，根据结点之间实际的物理距离定义连接关系，通过将传统路径规划算法与强化学习相结合的方式，形成了一种分层的导航策略，将长距离的导航问题分解为短期目标的导航问题，提升了在室内场景下的导航算法的学习效率以及泛化性能。

技术研发人员：蔡文哲;孙长银;陆科林;徐乐玏
受保护的技术使用者：东南大学
技术研发日：2020.12.04
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-7034.html

专利

最新回复(0)