摘要:在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient,TD3)实现无人机快速侦察目标。针对TD3算法的单策略网络输出动作波动大问题,提出构建双A网络来缓解。并提出利用带修正偏差的指数移动加权平均法建立价值网络与策略网络更新之间的联系,以自适应地改变更新周期。当无人机接收到辐射源信号时,采用最优航迹对辐射源进行定位。未检测到信号时,则根据历史经验飞行寻找信号源。仿真结果表明,所提方法可有效提高算法的收敛速度。
文章目录
0 引言
1 任务描述与建模
1.1 任务描述
1.2 无人机飞行建模
1.3 单站无源定位技术
1.4 测向交叉定位
1.5 电台作用距离
1.6 无人机侦察作用距离
1.7 高炮威胁模型
2 改进的TD3算法
2.1 TD3算法基本原理
2.2改进策略
2.2.1双A网络
2.2.2 自适应参数d
2.2.3 带修正偏差的指数加权平均
3 仿真实验设计与运行
3.1 环境参数设计
3.2 算法应用
3.3 仿真实验结果
4 结束语