本发明涉及一种导航方法,具体涉及一种基于拓扑图的强化学习室内导航方法,属于基于关系的高效强化学习技术领域。
背景技术:
随着近年来,大数据与人工智能技术以及硬件条件的快速发展,机器学习,深度学习,强化学习逐渐在各个领域中得到了广泛应用。而传统导航方法中,如slam一类的系统是通过将导航任务分割成三个独立任务定位,建图,路径规划来完成的,这样的方式对于建图定位精度要求都较高,同样也浪费了很多资源成本,而强化学习能够以一种端到端网络的形式实现导航任务,而这种方式的问题在于数据效率低以及泛化性能差。因此,迫切的需要一种新的方案解决现有技术中存在的技术问题。
技术实现要素:
本发明的目的是将传统规划算法与强化学习算法进行有机结合来解决强化学习数据效率低下以及针对长时序任务的表现不佳的问题。
为了实现上述目的,本发明的技术方案如下,一种基于拓扑图的强化学习室内导航方法,所述方法包括以下步骤:
s1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图g,将拓扑图中的结点集合定义为n,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角rgb图像信息,gt为期望的目标位置对应的rgb图像信息;
s2:根据imagenet数据集预训练出一个resnet18模型,记作
s3:若
s4:将
s5:根据slam模块对当前智能体所在位置xt进行估计,根据位置信息xt以及视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据softmax策略进行选择,得到待探索结点wt。
s6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图g进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
s7:根据wt中的视觉信息
s8:若
s9:根据新观测值st 1,xt 1来进行拓扑图g更新,并重复s4,s5,s6,s7,s8步骤。
其中,所述步骤s6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。
其中,所述步骤s5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当||xt-xp||2<dist1;
所述步骤s5中,将探索的机制与拓扑图相结合,具体采用了softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
其中,所述步骤s9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈k||xt-xi||>mindist1,
相对于现有技术,本发明具有如下优点,本发明提出了一种将规划算法与强化学习算法进行结合的导航算法,能够通过建立拓扑图的形式建立对环境的抽象表达,进而通过将长时间导航任务在拓扑图上分成较为容易完成的阶段性任务,不仅提升了强化学习的数据效率,同时也提升了强化学习算法在新场景下的探索效率,并且实现了同一场景下不同目标的泛化性。
附图说明
图1强化学习算法a3c示意图;
图2为resnet18,34,50;101;152示意图;
图3整体框架结构图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1-图3,一种基于拓扑图的强化学习室内导航方法,该方法将传统规划算法与强化学习算法相结合:包括以下步骤:
s1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图g,将拓扑图中的结点集合定义为n,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角rgb图像信息,gt为期望的目标位置对应的rgb图像信息;
s2:根据imagenet数据集预训练出一个resnet18模型,记作
s3:若
s4:将
s5:根据slam模块对当前智能体所在位置xt进行估计,找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据softmax策略进行选择,得到待探索结点wt。
s6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图g进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
s7:根据wt中的视觉信息
s8:若
s9:根据新观测值st 1,xt 1来进行拓扑图g更新,并重复s4,s5,s6,s7,s8步骤。
所述步骤s6中所使用的路径规划阶段算法为dijstra最短路径计算方法。
所述步骤s5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当|xt-xp||2<dist1;
所述步骤s5中,将探索的机制与拓扑图相结合,具体采用了softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
所述步骤s9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈k||xt-xi||>mindist1,
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
1.一种基于拓扑图的强化学习室内导航方法,其特征在于,所述方法包括以下步骤:
s1:初始化智能体所在位置xt,将智能体初始位置作为坐标原点,并初始化拓扑图g,将拓扑图中的结点集合定义为n,连接关系集合定义为ε。初始化智能体策略πθ(st,gt),其中st为当前智能体所处环境中的全景第一人称视角rgb图像信息,gt为期望的目标位置对应的rgb图像信息;
s2:根据imagenet数据集预训练出一个resnet18模型,记作
s3:若
s4:将
s5:根据slam模块对当前智能体所在位置xt进行估计,根据位置信息xt和视觉信息st找到智能体所属的结点np,并将np中到达次数cp加一,根据到达次数对np所有邻居结点进行排序,根据softmax策略进行选择,得到待探索结点wt。
s6:根据目标gt,定位gt所属节点ng与当前位置所对应结点np,针对拓扑图g进行路径规划,得到拓扑图在拓扑图上的路径{n1,n2,…ng},把路径中的下一跳结点n1作为中继目标节点wt
s7:根据wt中的视觉信息
s8:若
s9:根据新观测值st 1,xt 1来进行拓扑图g更新,并重复s4,s5,s6,s7,s8步骤。
2.根据权利要求1所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤s6中所使用的路径规划阶段算法为dijkstra最短路径计算方法。
3.根据权利要求2所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤s5中,寻找智能体所属结点np时,根据物理距离以及视觉特征距离同时考量,当且仅当||xt-xp||2<dist1;
4.根据权利要求2所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤s5中,将探索的机制与拓扑图相结合,具体采用了softmax的策略,即待选择的结点,基于软策略的方式来进行结点选择,能够保证探索的多样性。
5.根据权利要求1所述的基于拓扑图的强化学习室内导航方法,其特征在于,所述步骤s9拓扑图建立过程为:根据新观测得到的位置输入xt以及视觉输入st,如果在已建立好的拓扑图上找不到一个高相似度的结点,即mini∈k||xt-xi||>mindist1,