基于多模型组合的类别不平衡海洋数据质量控制方法

2024-06-08 海洋预报90 1.46M 0

  摘要:本文提出一种多模型组合的两层海洋数据质量控制框架,选择了多种常见分类算法作为基学习器对数据质量标签进行初级预测,再经过投票法或堆叠(Stacking)法给出海洋数据质量的标识符;针对类别不平衡问题,结合自适应下采样策略,降低数据的不平衡比率,并结合Focal loss损失函数,提升模型对难分类样本的识别能力。以来源于国际综合海洋大气数据集的海表温度和气温数据为例进行质量控制验证,结果表明,投票法或堆叠法对极少类的错误样本分类的F1 score(精确率和召回率的加权调和平均值)在海表温度数据上可达到0.9806和0.9812,在气温数据上可达到0.9985和0.9983。

  文章目录

  1 引言

  2 多模型组合海洋数据质量控制方法

  2.1 自适应下采样的基模型训练

  2.2基学习器

  2.2.1 决策树

  2.2.2 随机森林

  2.2.3 LightBGM

  2.3组合方法

  3 实验结果

  3.1数据集构建

  3.2 评价指标

  3.3实验结果分析与讨论

  3.3.1 基学习器筛选

  3.3.2自适应下采样模块性能评估

  3.3.3不同设计的LGB模型的实验对比

  3.3.4组合方式性能对比

  3.3.5 质量控制结果

  4 结论与展望



您还没有登录,请登录后查看详情



 

1/26专辑:论文下载

举报收藏 0打赏 0评论 0
相关文档
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1