声景识音:数字化时代声学场景分类的探索与前沿

2024-05-25 计算机工程170 1.27M 0

  摘要:声学场景分类旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法快速进步,近年来声学场景分类任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,本篇文章梳理了该领域的早期工作和近期发展,提供对声学场景分类的全面介绍。文章首先描述了声学场景分类的应用场景和面临的挑战;其次详细介绍声学场景分类主流框架,重点阐述应用于此领域的深度学习算法,然后系统性总结声学场景分类前沿探索与延伸任务以及公开数据集;最后对声学场景分类的发展趋势进行探讨与展望。

  文章目录

  0 概述

  1 传统声学场景分类算法

  1.1 特征提取

  1.2 传统分类方法

  2 基于深度学习的声学场景分类算法

  2.1 特征融合

  2.2 多声道信息融合

  2.3 数据增强

  2.4 网络拓扑结构及模型优化

  2.4.1 基于卷积神经网络的声学场景分类优化算法

  2.4.2 基于Attention的声学场景分类算法

  2.4.3 基于预训练模型的声学场景分类算法

  3 声学场景分类的前沿探索

  3.1 深度学习下DCASE2023声学场景分类概述

  3.2 基于大模型的计算机听觉领域应用

  4 声学场景分类数据集

  4.1 DCASE挑战赛数据集

  4.2 ESC环境声音分类数据集

  4.3 UrbanSound城市声音分类数据集

  4.4 AudioSet数据集

  4.5 FSD50K数据集

  5 声学场景分类延伸任务

  5.1 闭集/开集分类任务

  5.2 低复杂度分类任务

  5.3 不匹配设备分类任务

  6 总结与展望



您还没有登录,请登录后查看详情



 

1/26专辑:论文下载

举报收藏 0打赏 0评论 0
相关文档
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1