首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 自动化技术

基于因果掩码的因果强化学习算法

2024-05-26 计算机工程2250 1.17M 0

　　摘要：针对序列上连续决策问题诸如故障告警根因定位问题，强化学习已经成为一种重要的解决方法，但现有强化学习方法存在样本效率低、探索成本高昂等问题阻碍了其广泛应用。现有研究表明引入因果知识为提升强化学习智能体的决策可解释性和样本效率提供了巨大潜力。然而，现有的方法大多停留在隐式建模环境因果关系，未能直接利用因果结构知识。为此，本文提出一种两阶段因果强化学习算法，第一阶段基于观察数据用因果模型对环境变量进行显式建模，第二阶段基于所学因果结构进一步构造因果掩码来增强策略，帮助缩小决策空间，减少探索风险。由于缺乏允许直接因果推理的公共基准环境，本文在模拟故障告警环境中设计了根因定位任务，并在不同维度的环境中通过对比实验证明了所提算法的有效性和鲁棒性。实验结果表明，在低维环境下所提算法在累积奖励等指标上相比现有的主流强化学习SAC算法提升了13%，高维环境下提升79%，而且仅需少数的探索即可收敛策略，样本效率在低维和高维环境下分别提升了27%和52%。

　　文章目录

　　0 概述

　　1 相关工作

　　1.1 强化学习

　　1.2 因果关系发现

　　2 问题定义

　　2.1 马尔可夫决策过程

　　2.2 因果图模型

　　3 基于因果掩码的因果强化学习算法

　　3.1 因果结构学习

　　3.2 基于因果掩码的策略学习

　　4 实验

　　4.1 实验环境介绍与设置

　　4.2 低维告警环境实验结果与分析

　　4.3 高维告警环境实验结果与分析

　　4.4 Gym-Pendulum环境实验结果与分析

　　5 结束语

您还没有登录，请登录后查看详情

强化学习因果发现因果强化学习因果掩码策略学习

下一篇：水稻镉吸收、转运及积累的生理过程和分子机制研究进展
上一篇：近30年（1994-2023）中国液氢领域研究热点、前沿及演进

1/26专辑：论文下载

1.24MA型肉毒毒素注射联合悬吊训练治疗痉挛型脑性瘫痪尖足的短期疗效观察

1.16M基于色氨酸-芳香烃受体代谢通路探讨溃疡性结肠炎肠屏障修复的研究进展

1.25M功能近红外光谱成像技术在意识障碍患者残余意识检测中的研究

0.96M无金属酸性条件下催化合成β-溴代烯基硫醚的工艺优化研究

2.2M声表面波-自旋波耦合及磁声非互易性器件

1.37M高温大曲产酯酵母筛选、鉴定及发酵条件

1.48M水平井射孔簇内支撑剂分布数值模拟

1.99M基于反距离权重插值法与BP神经网络对浙江某电镀厂遗留地块土壤重金属健康风险评价及预测

1.02M不同烹饪方式对鹿茸菇营养特性和非挥发性风味物质的影响

1.64M光纤端面耦合周期极化铌酸锂（PPLN）薄膜波导器件的研究

1.74M纵向约束视角下微博反腐的互动逻辑——结合大数据与深度案例的探索

0.94M中国河流及湾区河口中微塑料的赋存输运特性研究进展

1.23M基于UPLC-MS/MS技术分析‘福红’李冷藏期间初生代谢物动态变化规律

1.28M横向流场中矩形喷嘴射流破碎特征的数值研究

0.78M电容去离子脱盐电极材料的研究进展

0.72M多式联运的政企联动机制及政策创新

1.24M高强钢绞线网增强工程水泥基复合材料加固损伤RC梁受弯裂缝分析

0.92M基于运营需求的动车组车队维修策略优化

1.35M花生壳基硬碳孔结构调控及储钠性能研究

1.69M纳米SiO2对硫铝酸盐混凝土负温力学性能与微观结构的影响

0.99M缓释作用对三价锰-焦磷酸盐/亚硫酸盐体系氧化效能的影响

1.72M平行流交叉口车道控制与信号配时组合优化

1.47M基于红外LED线型标靶的掘进机视觉定位方法研究

1.1M猪笼液蛋白酶消减牛乳蛋白致敏表位的研究

0.89M基于LabCar的永磁同步电机建模与验证

2.4M陕北黄土区深剖面不同土地利用方式下土壤水分和温度的分布特征

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

相关文档

	A型肉毒毒素注射联合悬吊训练治疗痉挛型脑性瘫痪尖足的短期疗效观察
	基于色氨酸-芳香烃受体代谢通路探讨溃疡性结肠炎肠屏障修复的研究进展
	功能近红外光谱成像技术在意识障碍患者残余意识检测中的研究
	无金属酸性条件下催化合成β-溴代烯基硫醚的工艺优化研究
	声表面波-自旋波耦合及磁声非互易性器件
	高温大曲产酯酵母筛选、鉴定及发酵条件
	水平井射孔簇内支撑剂分布数值模拟
	基于反距离权重插值法与BP神经网络对浙江某电镀厂遗留地块土壤重金属健康风险评价及预测
	不同烹饪方式对鹿茸菇营养特性和非挥发性风味物质的影响
	光纤端面耦合周期极化铌酸锂（PPLN）薄膜波导器件的研究

本类推荐

	基于自适应互补滑模观测器的PMSM无传感器控制
	基于双实时指标的动态差分进化算法
	基于大语言模型的用户行为情报研判方法研究:可解释性分析视角
	AI时代的书理学：理论思考与应用拓展
	生成式AI技术支持下数字人文的二次变革前瞻
	融合注意力机制的CNN-LSTM模型在复杂生产环境中的产能预测研究
	行业标准《人工智能医疗器械数据集专用要求：糖尿病视网膜病变眼底彩照》解析
	基于多种策略的改进蜣螂算法及其应用
	图神经网络驱动的图异常检测研究综述
	特征-标记邻域协同相关的分布式多标记特征选择方法

下载排行