摘要:在语音情感识别任务中,当处理不同时长的语音信号时,通常将每句语音信号分割成若干等长片段,然后根据所有片段预测结果的平均值来获得最终的情感分类。然而,这种处理方法要求用户的情绪表达在整个语音信号中是均匀分布的,但是这并不符合实际情况。针对上述问题,提出一种采用双阶段多示例学习网络的语音情感识别方法。第一阶段,将每句语音信号视为“包”,并将其分割成若干等长片段。每个语音片段视为“示例”,并提取多种声学特征,输入到相应的局部声学特征编码器,学习出各自对应的深度特征向量。然后,使用一致性注意力对不同的声学特征进行特征交互和增强。第二阶段,设计一个基于多示例学习的混合聚合器,用于在全局尺度上融合示例预测和示例特征,计算“包”级预测得分。首先,提出一种示例蒸馏模块,用于过滤情感信息较弱的冗余示例。然后,将蒸馏结果组成伪包,采用一种自适应特征聚合策略对伪包进行特征聚合,并通过分类器获得预测结果。最后,将示例级和伪包预测结果进行自适应决策聚合,以获得最终的情感分类结果。该方法在IEMOCAP和MELD公开数据集分别获得73.02%和44.92%的识别率,实验结果表明了该方法的有效性。
文章目录
1 多示例学习简介
2 提出的模型方法
2.1 模型概述
2.2 局部声学编码器
2.2.1 多级特征编码
2.2.2 一致性注意力模块
2.3 基于多示例学习的混合聚合器
2.3.1 示例蒸馏
2.3.2 自适应聚合
2.3.3 混合聚合
3 实验结果及分析
3.1 数据集
3.2 实验设置
3.3 与其它方法比较
3.4 消融实验
4 结语