摘要:债券违约预测需要同时面对包括样本极度不平衡、概念漂移以及困难样本识别在内的多重问题。然而,现有的基础模型与解决单一问题的改进模型难以满足这种需求。为此,基于交叉熵损失提出一种简洁的复合损失函数(TW-Focal Loss),通过加入改进因子来调节不同样本的损失权重,使得模型能有效学习违约样本、新样本和困难样本。基于2014~2022年我国公开发行的信用债数据,以XGBoost作为实验模型,结果表明,TW-Focal Loss下模型在降低第二类错误率的同时,能够有效控制第一类错误率,性能评估指标Gmean相比于交叉熵损失提升了46.4%,相比于专注不平衡改进的加权交叉熵损失提升了12.9%。另外,通过SHAP解释方法分析了不同损失函数下模型的特征重要性分配比例和部分依赖曲线,发现模型可以通过改变特征的影响程度和影响区间来控制对违约样本的识别。对于债券违约预测模型设计的完备性以及探索模型的判别逻辑提供了有效尝试。
文章目录
1 模型与方法
1.1 XGBoost算法
1.2 交叉熵损失及其改进形式
1.2.1 交叉熵损失
1.2.2 焦点损失
1.2.3 加权交叉熵损失
1.2.4 时间交叉熵损失
1.2.5 复合损失(TW-Focal Loss)
1.3 SHAP解释方法
2 实验设计
2.1 样本数据来源
2.2 变量选取与筛选
2.3 动态数据集构建
2.4 模型评价指标
2.5 超参数调优
3 实验研究
3.1 概念漂移检测
3.2 算法对比
3.3 显著性检验
3.4 稳健性检验
3.5 可解释性分析
4 结论