摘要:在视距内空战机动决策中,以光电传感器和雷达为代表的机载感知设备易受敌方干扰或气象因素等影响,产生态势感知误差。深度强化学习(DRL)在空战机动决策中虽已取得了重要进展,但现有方法并未考虑空战态势感知误差对DRL的影响。由于状态空间是连续且高维的,态势感知误差会影响状态估计的精度和准确性,进而影响DRL的训练速度及决策效果。针对上述问题,提出一种基于门控循环单元(GRU)提取态势特征的近端策略优化算法(GPPO)。首先,在近端策略优化算法(PPO)基础上引入门控循环单元来融合前序态势信息,提取连续态势序列之间的隐藏特征。随后,通过优势态势解算单元压缩DRL的状态空间维度,从而降低训练难度,并设计一种量化优势的奖励塑造(RS)方法来引导DRL训练加速收敛。最后,定义并描述了视距内空战的相对态势模型,通过设计和引入态势感知误差量,搭建具备态势感知误差的空战仿真环境,并在不同感知误差强度及不同敌我初始态势等多种场景下进行仿真对比实验。仿真结果表明,GPPO算法在具备态势感知误差的多种视距内空战场景里均能有效完成空战优势机动决策,使用GPPO和量化优势RS方法的模型训练收敛速度和机动决策性能均显著优于基础强化学习算法,有效提高了无人机面对态势感知误差时的空战机动决策能力。
文章目录
1 背景理论
1.1 马尔可夫决策过程
1.2 深度强化学习与PPO
1.3 门控循环单元
2问题描述
2.1无人机机动模型及动作空间
2.2视距内空战问题建模
2.2.1 视距内空战相对态势模型
2.2.2 空战优势机动定义
2.3态势感知误差量
3算法设计
3.1状态序列空间
3.2优势态势解算单元
3.3 GPPO算法
3.4奖励塑造
4仿真实验
4.1基础实验设计
4.2实验结果分析
4.3多场景验证实验
5 结 论