摘要:为了提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出了一种基于近端策略优化(PPO)的车辆智能控制方法。首先,构建了一个融合深度强化学习和传统PID控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次,为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆(Ego-car)选择具有更长优势距离的车道进行变道。为了加快深度强化模型的收敛速度,基于定义的优势距离提出了一种新的状态采集方法以减少数据处理量。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计了一个多目标奖励函数。最后,在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中开展了仿真测试,对所提方法在不同目标速度下的表现进行了分析和讨论。仿真测试结果表明,相比于深度Q 网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能让车辆安全平稳地完成驾驶任务。
文章目录
0 概述
1 相关工作
2 场景描述及强化学习
2.1 场景描述与任务目标
2.2 强化学习
3 基于深度强化学习PPO的车辆智能控制方法
3.1 PPO算法
3.2 状态空间
3.3 动作空间
3.4 奖励函数
3.5 基于PPO的高速公路驾驶模型
4 仿真与分析
4.1 仿真平台及参数
4.2 仿真结果及分析
5 结束语