摘要:随着互联网的兴起,各式各样的数据急速增长,如何高效地利用这些样本数据成为数据挖掘领域的重要问题。多标签分类任务作为机器学习与数据挖掘领域的重要任务,旨在为样本标注多个标签类别。目前的方法大多仅对特征分支进行嵌入表示学习,并未考虑到特征和标签之间的语义关联性,缺乏对特征嵌入空间的有效约束,从而导致学习到的特征嵌入针对性不足。与此同时,在标签相关性学习方面,现有的大多数方法主要关注低阶标签相关性,因此在面对复杂的实际标签场景时,多个标签之间的高阶相关性学习不足的问题变得更为突出。因此,为解决上述问题,本文从嵌入表示学习和标签相关性学习出发,提出了一种基于标签感知变分自编码器的多标签分类方法。具体来说,针对嵌入表示学习,本文提出使用特征和标签双流变分自编码器同时学习和对齐特征和标签的嵌入空间,对特征嵌入空间添加标签引导来增强特征嵌入。同时,采用基于标签语义的交叉注意力机制,将特定标签信息加入到特征嵌入中,最终获得标签感知后的判别性特征嵌入。针对标签相关性学习,采用共享解码器中的多层自注意力机制,充分融合多个标签的相似性信息,通过不同标签间的共现交互,从而学习到标签高阶相关性表示并用于交叉感知特征嵌入。在四个不同领域的数据集上得到的实验结果表明,本文提出的方法能够有效增强特征和标签嵌入,并充分捕获标签之间高阶相关性信息用于多标签分类任务,通过与多个最先进算法在多个评价指标上进行比较分析,验证了本文提出的方法在性能上的显著优越性。
文章目录
1 相关知识
2 基于标签感知的变分自编码器模型
2.1 问题描述
2.2 双流变分自编码器
2.3 共享解码器
2.4 标签预测
2.5 损失函数
3 实验分析
3.1 实验数据集
3.2 实验设置
3.3 评价指标
3.4 对比算法
3.5 性能对比
3.6 消融实验
3.7 参数敏感性分析
4 结束语