图像分类是图像处理中一项基础而又重要的工作。单一标签的图像分类已经无法满足人们的需求,研究者们开始关注于多标签图像分类。本文提出了一种Swin Transformer进行特征提取,由双层路由注意力模块进行特征处理的多标签图像分类框架。Swin Transformer通过分层结构提取多尺度信息,在多目标和更细粒度的图像识别方面优于Vision Transformer;双层路由注意力模块能够实现更灵活的计算分配和内容感知,可根据输入图像的特征自适应地调整注意力权重,灵活地控制注意力的强度和范围。模型在COCO数据集上平均精度均值为87.3,在VOC2007数据集上平均精度均值为96.7,一定程度上提高了多标签图像分类的精度。