本发明属于通信,具体涉及一种同时透射和反射的可重构智能表面辅助多输入多输出安全通信优化的方法与装置。
背景技术:
1、随着通信技术的发展,可重构智能表面(ris)已成为下一代无线网络中实现可重构无线传播链路的一种很有前景的技术。ris通过调整自身反射元件来改变反射信号,从而提高信号能量收集和数据传输。另一方面,在通信系统中合理部署ris可以增强系统的安全通信。
2、然而,传统的仅反射ris具有基站(bs)和被服务用户必须位于同一半区的明显约束,这极大地限制了其部署灵活性和信号传播调节能力。同时透射和反射的可重构智能表面(star-ris)可以克服仅反射ris的缺点,也可以提高网络的安全性。具有独立相移的理想star-ris模型,需要复杂的半被动或主动star-ris元表面架构。最近,出现了低成本无源无损star-ris,透射系数和反射系数之差总是(π/2或3π/2),因此两个相移不能独立调节。多输入多输出(mimo)通信系统也是下一代无线通信的重要技术,耦合相移star-ris可以辅助mimo系统的安全通信。
技术实现思路
1、本发明的目的是为了解决传统ris覆盖范围有限和无法处理长时隙下复杂变量的优化问题而提出的一种优化方案。
2、第一方面,一种star-ris辅助mimo安全通信优化的方法与装置,包括:
3、s1:建立star-ris辅助mimo安全通信优化的系统模型,采用耦合相移star-ris部署在mimo网络中。
4、s2:联合优化bs的发射波束形成,star-ris的耦合相移系数和bs处发射功率获得合法用户总保密率最大化的优化问题。
5、s3:通过一种基于soft actor-critic(sac)的算法,该算法在策略评估阶段,用基于值函数的熵改进的贝尔曼方差计算sac的q值,在策略增强阶段通过最小化kullback-leibler(kl)散度来减小两个策略之间的差距。通过软q函数参数来最小化软贝尔曼残差,最小化kl散度来训练策略网络参数,重新设置策略参数将策略目标函数更新,并在上述过程中交替使用随机梯度下降优化三种类型网络,使未来累积奖励值和熵最大化。
6、优选地,所述步骤s1具体包括:
7、该系统该系统包含1个配备m个通信天线的bs、2个窃听用户为e1和e2、2个合法用户为r和以及一个配备n个star元件的可同时透射和反射的可重构智能表面star-ris。
8、优选地,所述步骤s2具体包括:
9、对系统之间的信道建模为瑞利衰落信道,在发射功率和耦合相移约束下,合法用户最大总保密率的表述如下:
10、
11、
12、
13、
14、其中,pmax为在bs处的最大功率约束。在问题(1)中,(1a)表示每个时隙t的最大bs功耗,(1b)表示star-ris的幅度约束。最后(1c)为star-ris相移耦合约束。
15、优选地,所述步骤s3具体包括:
16、由于考虑长时隙下安全传输,难以处理复杂变量优化问题,这是传统非凸优化方法难以解决的问题。为了解决这一问题,采用了一种基于sac方法的算法。
17、一种智能反射面辅助的无线供电系统的方法与装置,它包括:
18、模型建立模块,用于建立star-ris辅助mimo安全通信系统的下行链路系统模型;
19、方程构造模块,用于联合优化在bs处发射波束形成和star-ris的透射和反射系数最大化合法用户的总保密率的方法;
20、迭代处理模块,用于解决长时隙下的复杂变量优化问题,通过一种基于sac的算法,对q函数、软状态价值函数和策略都使用函数逼近器,并交替使用随机梯度下降优化神经网络最大化未来累积奖励值和熵,最大化合法用户的总保密率。
21、所述建模模块包括:
22、第一建模单元,在bs配备m个天线,2个窃听用户分别配备e个天线,2个合法用户分别配备u个天线以及配备n个star元件的star-ris;
23、第二建模单元,考虑star-ris的所有元件同时工作在透射和反射状态,硬件是无源无损架构,可得到透射系数和反射系数的耦合关系,bs到star-ris服从莱斯衰落模型,其余信道都服从瑞利衰落模型。
24、方程构造模块,联合优化在bs处发射波束形成和star-ris的透射和反射系数最大化合法用户的总保密率的计算方程:
25、
26、
27、
28、
29、迭代处理模块,通过一种基于sac的算法,对q函数、软状态价值函数和策略都使用函数逼近器,并交替使用随机梯度下降优化神经网络最大化未来累积奖励值和熵,最大化合法用户总保密率。
30、在策略评估阶段,sac的q值可以用基于熵改进的贝尔曼方差与值函数计算,其可表述为:
31、
32、其中st+1从回放缓存区中采样,v(st)定义为软状态值函数,其可表述为:
33、
34、kl散度定义为:
35、
36、其中u(x)和v(x)表示分布u和v的概率密度函数。
37、在策略增强阶段,策略被更新为与q成正比的指数分布,可通过最小化kl离散来减小两个策略之间的差距,新策略可表述为:
38、
39、其中п表示策略的集合。
40、在sac中有三种不同类型的参数化函数用于网络更新,用于表示软状态值函数vφ(st),可处理策略πμ(at|st)和软q函数qψ(st,at)。软状态值目标函数可表述为:
41、
42、(23)的梯度用无偏估计量估计,其可表述为:
43、
44、通过学习软q函数参数来最小化软贝尔曼残差,软q值目标函数可表述为:
45、
46、其中可表述为:
47、
48、(25)的梯度由下式给出:
49、
50、其中γ表示折扣因子,为目标值网络。
51、通过最小化式(22)中的kl散度来训练策略网络参数:
52、
53、重新设置策略参数:
54、at=fμ(ωt;st), (29)
55、其中ωt是从高斯分布中采样的噪声向量。
56、更新后的策略目标函数可表述为:
57、
58、(30)的梯度可近似为:
59、
60、其中at为fμ(ωt;st)。
61、奖励函数可表述为:
62、
63、由上述技术方案可知,通过联合优化bs的发射波束形成和star-ris的耦合相移系数,并通过一种基于sac的算法,对q函数、软状态价值函数和策略都使用函数逼近器,并交替使用随机梯度下降优化三种类型网络,使未来累积奖励值和熵最大化,以最大限度地提高合法用户的总保密率。
1.一种star-ris辅助mimo安全通信优化的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种star-ris辅助mimo安全通信优化的方法,其特征在于,所述步骤s1具体包括:
3.根据权利要求1所述的一种star-ris辅助mimo安全通信优化的方法,其特征在于,所述步骤s2具体包括:
4.根据权利要求1所述的一种star-ris辅助mimo安全通信优化的方法,其特征在于,所述步骤s3具体包括:
5.一种star-ris辅助mimo安全通信优化的装置,其特征在于,包括:
6.根据权利要求5中所述的一种star-ris辅助mimo安全通信优化的装置,其特征在于,包括:
7.根据权利要求5中所述的一种star-ris辅助mimo安全通信优化的装置,其特征在于,包括:
