摘要:为提升深度学习模型中三维卷积提取时空特征的有效性,提出一种基于时空置换注意力机制的残差行为识别模型。时空置换注意力机制是由通道结合时间和空间注意力子模块组成的轻量化的多维度混合注意力机制,在通道注意力中增加了结合时间的维度,获取时间与通道信息;在空间注意力中压缩冗余的时间信息,提升对空间特征的关注度,对提取的特征进行通道置乱及通道重组,提升模型对数据的表征能力并减少参数量。该模型使用Resnext残差网络提取时空特征,在残差模块中嵌入时空置换注意力机制模块,利用注意力模块自主学习不同特征图的权重参数,针对性的对提取的特征在通道、时间、空间域加权,增强网络对人体行为的表达能力,使用改进的交叉熵函数Focal Loss作为损失函数解决数据集中可能存在的样本分布不均衡的问题。实验结果表明,该模型在UCF101以及HMDB51数据集上的识别准确率分别达到了96.3%以及71.6%,相较于其他模型均有显著提升。
文章目录
0 概述
1 模型设计
1.1 3D卷积
1.2 3D-Resnext
1.3 时空置换注意力模块
1.4 基于时空置换注意力机制的残差模型
1.5 损失函数
2 实验分析
2.1 实验环境
2.2 数据集
2.3 数据预处理
2.4 实验结果分析
2.5对比实验
2.6 消融实验
3 结束语