摘要:声学场景分类旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法快速进步,近年来声学场景分类任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,本篇文章梳理了该领域的早期工作和近期发展,提供对声学场景分类的全面介绍。文章首先描述了声学场景分类的应用场景和面临的挑战;其次详细介绍声学场景分类主流框架,重点阐述应用于此领域的深度学习算法,然后系统性总结声学场景分类前沿探索与延伸任务以及公开数据集;最后对声学场景分类的发展趋势进行探讨与展望。
文章目录
0 概述
1 传统声学场景分类算法
1.1 特征提取
1.2 传统分类方法
2 基于深度学习的声学场景分类算法
2.1 特征融合
2.2 多声道信息融合
2.3 数据增强
2.4 网络拓扑结构及模型优化
2.4.1 基于卷积神经网络的声学场景分类优化算法
2.4.2 基于Attention的声学场景分类算法
2.4.3 基于预训练模型的声学场景分类算法
3 声学场景分类的前沿探索
3.1 深度学习下DCASE2023声学场景分类概述
3.2 基于大模型的计算机听觉领域应用
4 声学场景分类数据集
4.1 DCASE挑战赛数据集
4.2 ESC环境声音分类数据集
4.3 UrbanSound城市声音分类数据集
4.4 AudioSet数据集
4.5 FSD50K数据集
5 声学场景分类延伸任务
5.1 闭集/开集分类任务
5.2 低复杂度分类任务
5.3 不匹配设备分类任务
6 总结与展望