摘要:在高速铁路中,受电弓主动控制是提升列车受流质量的一种有效措施。针对受电弓主动控制问题,提出了一种基于时序差分-模型预测控制(Temporal Difference - Model Predictive Control, TD-MPC)的受电弓主动控制算法。首先采用多体动力学和有限元算法建立受电弓-接触网系统耦合模型,作为虚拟环境训练环境动力学模型。然后,模型预测控制(MPC)使用学习到的环境动力学模型进行短期轨迹寻优,并结合时序差分(TD)强化学习算法对其进行长期奖励估计,选取最优控制策略。最后,基于建立的弓网耦合模型进行仿真实验,验证了控制器算法的有效性,并与传统控制和现有强化学习算法进行对比。研究结果表明,采用基于TD-MPC受电弓主动控制算法,宁启线运行在220km/h、240km/h、260km/h、280km/h时,接触力标准差分别能够降低14.71%、16.93%、25.22%、35.69%,有效抑制接触力的波动,同时在考虑受电弓参数扰动以及不同接触网线路时也能够有效降低接触力的波动,验证了控制算法的鲁棒性。
文章目录
0 引 言
1 受电弓-接触网系统耦合模型
1.1 受电弓模型
1.2 接触网模型
1.3 受电弓-接触网耦合模型
2 基于TD-MPC的受电弓主动控制
2.1 强化学习预备知识
2.2 模型预测控制预备知识
2.3 TD-MPC 控制算法
2.4 环境动力学模型
2.5 算法流程
2.6 马尔科夫决策环境
3 基于TD-MPC的受电弓主动控制
3.1 实验参数设置
3.2 控制器有效性验证
3.3 控制器鲁棒性验证
3.4 控制器超参数寻优
4 结 论