摘要:视觉转换器模型在图像分类领域取得了显著突破,然而,由于其缺乏多尺度与局部特征捕获能力,难以适应合成孔径雷达图像船舶分类任务。为此,本文提出一种混合网络模型用于SAR图像船舶分类。设计一种分阶段下采样网络结构,解决了ViT无法捕获多尺度特征的问题。通过在ViT模型的3个核心模块中融入卷积结构,设计了卷积标记嵌入、卷积参数共享注意力和局部前馈网络3个模块,使得网络能够同时捕获船舶图像的全局和局部特征,进一步增强了网络归纳偏置和特征提取能力。研究表明:本文所提模型在OpenSARShip和FUSAR-Ship2个通用SAR船舶图像数据集上,分类准确率优于现有主流方法,有效地提升了SAR图像船舶分类性能。
文章目录
1 ViT-CNN混合网络的提出
1.1 分阶段下采样网络结构
1.2 CTE模块
1.3 CPSA模块
1.4 LFFN模块
2 船舶图像分类实验及结果分析
2.1 网络结构参数
2.2 数据集的选取
2.3 实验设置
2.4 评价指标
2.5 消融实验
2.5.1 3个模块有效性验证
2.5.2 位置编码对网络性能的影响
2.5.3编码器数量对网络性能的影响
2.5.4 注意力头数量与下降率对网络性能的影响
2.5.5 LFFN模块中卷积核尺寸对网络性能的影响
2.6 模型的先进性验证
3 结论