本发明涉及一种通信时延下基于深度学习的目标位置估计方法,属于导航定位领域。
背景技术:
0、技术背景
1、如今,随着无线通信条件的日益复杂与苛刻,定位问题已成为空对地攻击、海上搜救、目标辐射源指示等军事和民用应用的焦点。鉴于单一感知节点难以准确侦测并定位目标,需要采用多节点定位方法。现有的多节点定位方法按协作方式的不同可分为非协作定位和协作定位。相较于非协作定位,协作定位得益于无线传感器网络(wsn)及设备间的通信技术,通过多节点之间的信息交互和数据融合,可以极大提升定位精度;其次节点间可以通过合作共享通信和计算负载,分担资源和任务,降低功耗和成本。
2、wsn有几种常见的测量模型,如到达角(aoa)、到达时间(toa)、到达时间差(tdoa)和接收信号强度(rssi)。与其他几类测量模型相比,rssi对硬件的需求低、通信开销较小,非常适合用于能量有限的网络节点。基于rssi的协作定位技术利用多个感知节点测得接收到的信号强度,分别解得与目标之间的距离,再将用于定位的距离信息汇总到主感知节点,解得目标所在位置。
3、然而,大部分传统的基于rssi的协作定位技术只适用于理想的无时延通信场景,在情况复杂的实际场景中,不同节点之间的信息交互将不可避免受到通信延迟的干扰,如若处理不当将对整个系统的定位结果产生负面影响。如何设计合适的时延补偿方法以同步延迟信息,从而最小化通信时延对协作定位带来的影响,是亟待解决的问题。
技术实现思路
1、为了同步各节点的延迟信息,最小化通信时延对协作定位精度的影响,本发明主要目的是提供一种通信时延下基于深度学习的目标位置估计方法,采用先同步再定位的策略,在延迟距离序列同步阶段,主感知节点分别处理来自不同次感知节点的有传输时延的距离信息,采用课程学习(curriculum learning)和抽样方式训练sequence-to-sequence(seq2seq)模型对延迟距离序列进行预测,将预测得到的距离序列作为时延段内的距离估计序列;在位置估计阶段,将主感知节点的无时延距离序列与所有次感知节点在时延段内的距离估计序列组合起来,输入带注意力机制的lstm(attention-lstm)网络,利用attention-lstm学习距离估计序列与坐标的映射关系,得到待估计时刻目标的位置,为探测目标辐射源的入侵、运动方向,探明事件发生地点以及后续实施正确决策等提供有效依据。
2、本发明在考虑通信延迟的场景下实现了多感知节点协同估计目标位置;在延迟距离序列同步阶段,采用的基于课程学习和抽样方式训练的seq2seq预测与递归预测、多模型预测等智能方法相比预测误差更小,从而使定位精度更优。
3、本发明的目的是通过下述技术方案实现的。
4、本发明公开的一种通信时延下基于深度学习的目标位置估计方法,包括以下步骤:
5、步骤一、生成用于协作定位的原始数据;目标辐射源在三维空间中的运动状态演化服从离散时间马尔科夫链,该马尔科夫链里的每个有限状态对应的运动方向和速度称为运动状态,且当前时刻的运动状态只和前一个时刻的运动状态有关;信号传播服从阴影衰弱模型,现有n个感知节点协作感知该目标;第1个节点为主感知节点,其余均为次感知节点;根据某t时刻测得各自的rssi获取双方的距离信息:
6、
7、其中p0是目标的平均发射功率,a是特定环境的衰减指数;
8、主感知节点接收并融合各次感知节点发过来的距离信息,利用基于rssi的多边定位法得到目标的三维坐标;组合距离信息和三维坐标,记作该时刻收集到的观测数据:
9、
10、其中表示第n个节点在t时刻的距离信息,x(t)、y(t)和z(t)分别表示目标三维坐标中的横坐标、纵坐标和竖坐标;目标运动n个时刻生成一条飞行轨迹,有m条不同的轨迹,则原始数据共包含(m×n)个时刻的观测数据;
11、步骤二、考虑节点间通信存在传输时延、距离信息按序到达且不会丢包的场景,某次感知节点相对于主感知节点传输时延为τ,传输的距离数据为d,则待定位t时刻主感知节点接收的数据并非该次感知节点与目标的实时距离d(t)而是延迟距离d(t-τ);时延段内的延迟距离组成延迟距离序列;
12、为了减小通信时延导致的距离序列异步对目标位置估计的影响,构建先同步延迟距离序列再估计目标位置的方法,在延迟距离序列同步阶段,主感知节点分别处理来自不同次感知节点的有传输时延的距离信息,采用课程学习和抽样方式训练好的seq2seq模型对延迟距离序列进行预测,将预测得到的距离序列作为时延段内的距离估计序列;
13、步骤2.1将延迟距离序列输入带编码器-解码器架构的seq2seq模型,首先由编码器对其进行编码,经过多次递归更新后返回最后的隐状态ht和单元状态ct;
14、
15、ht=ot⊙tanh(ct)
16、其中ft、it和ot分别表示lstm单元里的遗忘门、输入门和输出门,ct-1表示上一个时间步长的单元状态,⊙表示矩阵乘积;之后ht和ct作为解码器初始的隐状态和单元状态,在解码过程中,解码器中每一个时间步的输入为前一个时间步的预测值或真实标签,直到输出整个距离序列;
17、综上,seq2seq模型的功能形式化为:
18、
19、其中:t为待定位时刻,k为输入的时间步长,τ为传输时延,为主感知节点对次感知节点在t时刻传输的距离的估计值;时延段内对距离的估计值按时间顺序组成了距离估计序列;
20、步骤2.2步骤二所述训练好的seq2seq模型,是通过下述方法训练得到的:
21、首先将步骤一生成的原始数据按列切割,第i(i=2、3…n)个次感知节点测得的距离序列按时间步长和滑动窗口大小划分成样本,再将这些样本按比例划分为训练集、验证集和测试集;训练集上的样本进行归一化,转换维度后输入seq2seq模型,使用课程学习和抽样方式训练该模型,在每个训练轮次中,解码器中每一个时间步的输入以p的概率选择真实标签,以1-p的概率选择上一个时间步的预测值,从而均衡模型收敛和误差累积传播问题;采用计划抽样的方式改变概率p的大小,令p服从指数衰减,当训练轮次低于总轮次的一半时,p值处于0.5到1之间,选择真实标签作为下一个时间步的输入;当训练轮次超过总轮次的一半时,p值减小至0到0.5之间,此时选择上一个时间步的预测值作为下一个时间步的输入,以整体提升模型的泛化能力;
22、训练过程中,采用均方误差(mse)作为损失函数度量真实标签yi与预测值之间的差异:
23、
24、其中c表示样本个数。
25、待训练结束,seq2seq模型输出预测的距离序列。
26、步骤三、将主感知节点的无时延距离序列与步骤二得到的时延段内的距离估计序列按时间顺序组合起来,输入训练好的attention-lstm网络,利用attention-lstm学习距离估计序列与坐标的映射关系,得到待估计时刻目标的坐标位置,为探测目标辐射源的入侵、运动方向,探明事件发生地点以及后续实施正确决策等提供有效依据。
27、步骤3.1将主感知节点的无时延距离序列与所有次感知节点在时延段内的距离估计序列按时间顺序进行组合得到:
28、
29、
30、将输入attention-lstm网络;具体而言,首先将lstm最后一层隐藏层的输出向量作为注意力层的输入,通过一个全连接层,再使用softmax函数对全连接层的输出进行归一化处理,
31、
32、得到每一个隐藏层向量的分配权重,权重大小反应每一个时间步的隐状态对输出结果的重要程度:
33、si=tanh(whi+bi)
34、ai=softmax(si)
35、其中hi为最后一层lstm隐藏层的输出,w和bi为神经元的权重和偏置,si为每个隐藏层输出的得分,ai为权重系数;然后利用权重系数对隐藏层输出求加权平均和ci:
36、
37、最后由输出层输出t时刻目标的估计坐标;综上,attention-lstm模型的功能形式化为:
38、
39、得到待估计时刻目标的位置,为探测目标辐射源的入侵、运动方向,探明事件发生地点以及后续实施正确决策等提供有效依据。
40、步骤3.2步骤三所述训练好的attention-lstm模型,是通过下述方法训练得到的:
41、将步骤一生成的数据以距离和坐标为界限切割,距离的维度是d,坐标的维度是3;以连续时间步长的d维距离序列为特征,最后一个时间步长的3维坐标为标签,构造样本,再将样本按比例划分为训练集、验证集和测试集;训练集上的样本进行归一化和转换维度的操作后输入attention-lstm模型,使用adam优化算法自适应调整学习率;使用反向传播方法,通过链式法则将损失函数从输出层反向传播到输入层,计算每个参数的梯度;在每个反向传播步骤中,使用之前计算得到的梯度来更新网络的参数,直到模型训练至收敛;
42、训练过程中,采用目标的估计位置与实际位置之间的平均距离误差(mde)作为损失函数度量估计值与真实标签之间的差异:
43、
44、其中m表示样本个数,和(x(j),y(j),z(j))分别表示j时刻目标的估计坐标和真实坐标。
45、待训练结束,attention-lstm模型输出t时刻目标的估计坐标。
46、有益效果:
47、1、本发明公开的一种通信时延下基于深度学习的目标位置估计方法,为了同步各节点的延迟信息,最小化通信时延对协作定位精度的影响,在延迟距离序列同步阶段采用seq2seq模型对延迟的距离序列进行预测,比递归预测、多模型预测等智能方法的预测误差小;在位置估计阶段,利用注意力机制计算每个时间步的权重,并将最大的权重加在最有可能影响输出结果的时间步上,进一步减小了seq2seq模型的预测误差对定位结果的影响,提高了定位精度。
48、2、本发明公开的一种通信时延下基于深度学习的目标位置估计方法,使用课程学习和抽样方式训练seq2seq模型,使得解码器中每一个时间步的输入以p的概率选择真实标签,以1-p的概率选择上一个时间步的预测值,并采用计划抽样的方式改变概率p的大小,使得当模型训练充分后,使用上一个时间步的预测值作为下一时间步的输入,从而均衡了模型收敛性和误差累积传播问题,也提高了模型的泛化能力。
1.一种通信时延下基于深度学习的目标位置估计方法,其特征在于:包括以下步骤,
2.如权利要求1所述的一种通信时延下基于深度学习的目标位置估计方法,其特征在于:步骤二的具体实现方式为,
3.如权利要求2所述的一种通信时延下基于深度学习的目标位置估计方法,其特征在于:步骤三的具体实现方式为,