首页 > 文档 > 学术/知识/论文 > 工程科技与自然科学 > 武器工业与军事技术

基于深度强化学习的抗感知误差空战机动决策

2024-04-12 工程科学与技术2000 1.58M 0

摘要：在视距内空战机动决策中，以光电传感器和雷达为代表的机载感知设备易受敌方干扰或气象因素等影响，产生态势感知误差。深度强化学习(DRL)在空战机动决策中虽已取得了重要进展，但现有方法并未考虑空战态势感知误差对DRL的影响。由于状态空间是连续且高维的，态势感知误差会影响状态估计的精度和准确性，进而影响DRL的训练速度及决策效果。针对上述问题，提出一种基于门控循环单元(GRU)提取态势特征的近端策略优化算法(GPPO)。首先，在近端策略优化算法(PPO)基础上引入门控循环单元来融合前序态势信息，提取连续态势序列之间的隐藏特征。随后，通过优势态势解算单元压缩DRL的状态空间维度，从而降低训练难度，并设计一种量化优势的奖励塑造(RS)方法来引导DRL训练加速收敛。最后，定义并描述了视距内空战的相对态势模型，通过设计和引入态势感知误差量，搭建具备态势感知误差的空战仿真环境，并在不同感知误差强度及不同敌我初始态势等多种场景下进行仿真对比实验。仿真结果表明，GPPO算法在具备态势感知误差的多种视距内空战场景里均能有效完成空战优势机动决策，使用GPPO和量化优势RS方法的模型训练收敛速度和机动决策性能均显著优于基础强化学习算法，有效提高了无人机面对态势感知误差时的空战机动决策能力。

文章目录

1 背景理论

1.1 马尔可夫决策过程

1.2 深度强化学习与PPO

1.3 门控循环单元

2问题描述

2.1无人机机动模型及动作空间

2.2视距内空战问题建模

2.2.1 视距内空战相对态势模型

2.2.2 空战优势机动定义

2.3态势感知误差量

3算法设计

3.1状态序列空间

3.2优势态势解算单元

3.3 GPPO算法

3.4奖励塑造

4仿真实验

4.1基础实验设计

4.2实验结果分析

4.3多场景验证实验

5 结论

您还没有登录，请登录后查看详情

深度强化学习视距内空战机动决策感知误差奖励塑造无人机

下一篇：海尔217升风冷定频三门冰箱 BCD-217WMCO使用说明书
上一篇：海尔219升风冷定频三门冰箱 BCD-219WDPCU1使用说明书

点赞 0举报收藏 0打赏 0评论 0

工程科学与..
加关注0
~~没有留下签名~~~~

本类推荐

	二回路典型蒸汽管路流噪声特性分析
	填充介质对组合式多药型罩射流的影响研究
	空基杀伤链网络关键边识别方法
	海上作战用电能源技术应用分析
	2024年美军无人装备领域发展分析
	2024年国外高超声速技术领域发展综述
	RCSA-YOLO：改进YOLOv8的SAR舰船实例分割
	外军高超声速武器作战及其目标杀伤链构建分析
	空空导弹上舰制动冲脱安全性评估方法研究
	导弹环境例行试验样本量优化研究

下载排行