采用双阶段多示例学习网络的语音情感识别

2024-05-19 计算机科学与探索210 1.22M 0

  摘要:在语音情感识别任务中,当处理不同时长的语音信号时,通常将每句语音信号分割成若干等长片段,然后根据所有片段预测结果的平均值来获得最终的情感分类。然而,这种处理方法要求用户的情绪表达在整个语音信号中是均匀分布的,但是这并不符合实际情况。针对上述问题,提出一种采用双阶段多示例学习网络的语音情感识别方法。第一阶段,将每句语音信号视为“包”,并将其分割成若干等长片段。每个语音片段视为“示例”,并提取多种声学特征,输入到相应的局部声学特征编码器,学习出各自对应的深度特征向量。然后,使用一致性注意力对不同的声学特征进行特征交互和增强。第二阶段,设计一个基于多示例学习的混合聚合器,用于在全局尺度上融合示例预测和示例特征,计算“包”级预测得分。首先,提出一种示例蒸馏模块,用于过滤情感信息较弱的冗余示例。然后,将蒸馏结果组成伪包,采用一种自适应特征聚合策略对伪包进行特征聚合,并通过分类器获得预测结果。最后,将示例级和伪包预测结果进行自适应决策聚合,以获得最终的情感分类结果。该方法在IEMOCAP和MELD公开数据集分别获得73.02%和44.92%的识别率,实验结果表明了该方法的有效性。

  文章目录

  1 多示例学习简介

  2 提出的模型方法

  2.1 模型概述

  2.2 局部声学编码器

  2.2.1 多级特征编码

  2.2.2 一致性注意力模块

  2.3 基于多示例学习的混合聚合器

  2.3.1 示例蒸馏

  2.3.2 自适应聚合

  2.3.3 混合聚合

  3 实验结果及分析

  3.1 数据集

  3.2 实验设置

  3.3 与其它方法比较

  3.4 消融实验

  4 结语



您还没有登录,请登录后查看详情



 

1/26专辑:论文下载

举报收藏 0打赏 0评论 0
相关文档
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1