摘要:本文提出一种多模型组合的两层海洋数据质量控制框架,选择了多种常见分类算法作为基学习器对数据质量标签进行初级预测,再经过投票法或堆叠(Stacking)法给出海洋数据质量的标识符;针对类别不平衡问题,结合自适应下采样策略,降低数据的不平衡比率,并结合Focal loss损失函数,提升模型对难分类样本的识别能力。以来源于国际综合海洋大气数据集的海表温度和气温数据为例进行质量控制验证,结果表明,投票法或堆叠法对极少类的错误样本分类的F1 score(精确率和召回率的加权调和平均值)在海表温度数据上可达到0.9806和0.9812,在气温数据上可达到0.9985和0.9983。
文章目录
1 引言
2 多模型组合海洋数据质量控制方法
2.1 自适应下采样的基模型训练
2.2基学习器
2.2.1 决策树
2.2.2 随机森林
2.2.3 LightBGM
2.3组合方法
3 实验结果
3.1数据集构建
3.2 评价指标
3.3实验结果分析与讨论
3.3.1 基学习器筛选
3.3.2自适应下采样模块性能评估
3.3.3不同设计的LGB模型的实验对比
3.3.4组合方式性能对比
3.3.5 质量控制结果
4 结论与展望