摘要:针对序列上连续决策问题诸如故障告警根因定位问题,强化学习已经成为一种重要的解决方法,但现有强化学习方法存在样本效率低、探索成本高昂等问题阻碍了其广泛应用。现有研究表明引入因果知识为提升强化学习智能体的决策可解释性和样本效率提供了巨大潜力。然而,现有的方法大多停留在隐式建模环境因果关系,未能直接利用因果结构知识。为此,本文提出一种两阶段因果强化学习算法,第一阶段基于观察数据用因果模型对环境变量进行显式建模,第二阶段基于所学因果结构进一步构造因果掩码来增强策略,帮助缩小决策空间,减少探索风险。由于缺乏允许直接因果推理的公共基准环境,本文在模拟故障告警环境中设计了根因定位任务,并在不同维度的环境中通过对比实验证明了所提算法的有效性和鲁棒性。实验结果表明,在低维环境下所提算法在累积奖励等指标上相比现有的主流强化学习SAC算法提升了13%,高维环境下提升79%,而且仅需少数的探索即可收敛策略,样本效率在低维和高维环境下分别提升了27%和52%。
文章目录
0 概述
1 相关工作
1.1 强化学习
1.2 因果关系发现
2 问题定义
2.1 马尔可夫决策过程
2.2 因果图模型
3 基于因果掩码的因果强化学习算法
3.1 因果结构学习
3.2 基于因果掩码的策略学习
4 实验
4.1 实验环境介绍与设置
4.2 低维告警环境实验结果与分析
4.3 高维告警环境实验结果与分析
4.4 Gym-Pendulum环境实验结果与分析
5 结束语