首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

面向YOLO神经网络的数据流架构优化研究

2024-06-21 1980 1.72M 0

　　摘要：YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点，因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言，数据流架构的执行模式与神经网络算法匹配度高，更能充分挖掘其中的数据并行性。然而，在数据流架构上部署YOLO神经网络时面临三个问题：1）数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点，造成卷积运算数据复用率过低的问题，并进一步降低计算部件利用率；2）数据流架构在算子调度时无法利用算子间结构高度耦合的特点，导致大量数据重复读取；3）数据流架构上的数据存取与执行高度耦合、串序执行，导致数据存取延迟过高。为解决这些问题，本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先，结合卷积嵌套循环的执行模式，本文分析了小卷积核卷积运算的数据复用特征，并提出了更有利于执行单元内部数据复用的数据流图映射算法，从而整体提升卷积运行效率；然后，为充分利用结构耦合的算子间的数据复用，DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率；最后，DFU-Y通过双缓存解耦合数据存取与执行，从而并行执行数据存取与运算，掩盖了程序间的数据传输延迟，提高了计算部件利用率。实验表明，相较数据流架构(DFU)和GPU(NVIDIA Xavier NX)，DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升；同时，相较YOLO专用加速器(Arria-YOLO)，DFU-Y在保持较好通用性的同时，达到了其性能的72.97%、能效的87.41%。

　　文章目录

　　1 引言

　　2 相关工作

　　2.1 YOLO算法特点

　　2.2 YOLO卷积算子

　　2.3 YOLO加速相关研究

　　2.4 数据流架构DFU

　　3 研究动机

　　3.1 数据复用性差

　　3.2 算子间数据重复读取

　　3.3传输延迟高

　　4 DFU-Y架构

　　4. 1 小卷积核卷积数据流图映射算法

　　4.2 算子融合调度机制

　　4.3 解耦合访存-执行模式

　　5 实验设置

　　5.1 实验平台

　　5.2 测试程序

　　5.3 对比平台

　　5.4 衡量指标

　　6 结果分析

　　6.1 数据格式实验

　　6.2 DFU-Y上的消融实验

　　6.3 与其他平台的性能对比

　　6.4 DFU-Y执行其他网络

　　6.5 代价

　　7 总结

您还没有登录，请登录后查看详情

YOLO算法数据流架构数据流图优化卷积神经网络神经网络加速

下一篇：急性缺血性脑卒中血管内治疗后患者的早期血压管理的Meta分析
上一篇：非光气途径合成多异氰酸酯的研究进展

1/26专辑：论文下载

1.5M双S弯排气系统雷达吸波涂层应用的仿真计算

1.24M短距起飞/垂直降落飞机升力系统研究进展

1.84M航空涡扇发动机机械系统架构和技术综述

1.41M基于Noradamantane的高能量密度富氮笼型含能分子设计与性能预估

0.49M一种视/触觉融合的柔性物体抓取力估计方法

1.18M构建与新发展阶段相适应的现代化意识形态

1.16M猕猴桃叶水浸提液对4种植物化感作用及其化学成分分析

0.71M基于完全但不完美信息序贯博弈计量模型的农地流转影响因素

0.83M病原学送检管理的相关信息化建设要求

0.85M基于非线性加权法的航空发动机总体性能优化设计

1.42M鹅不食草药材倍半萜内酯类特征图谱的建立及多成分定量研究

0.83MGaR视角下海洋产业结构升级、科技创新与海洋经济高质量发展

0.51M经济发展阶段、要素条件变化与区域产业演化路径：后发国家视角

1.56M分离纯化对银耳多糖结构及体外降脂活性的影响

0.59M现代化产业体系绩效测度与区域差异研究——基于江苏与相关省市数据样本分析视角

0.59M“一带一路”背景下柬埔寨海岸带管理体系研究

0.89M中国海洋经济高质量发展的时空差异及影响因素研究

1.16M碳酸钙处理工业废硫酸的硫酸钙结晶与过滤性能研究

0.83M非结核分枝杆菌病诊治六十年

7.87M厚朴酚、和厚朴酚对脂多糖诱导小鼠肠道损伤的抗炎作用及机制研究

1.83MALVE的筛查整合及其对坝上长尾鸡生产性能的影响

1.57M高比例植物蛋白对青鱼幼鱼生长、消化、肝功能及血清生化指标的影响

1.82M絮凝技术在毕赤酵母发酵液固液分离中的应用研究

1.72M黔西南州不同饲草品种生产性能及营养品质的综合评价

5.88M射干不同部位总三萜提取工艺优化及其抗氧化活性分析

10.22M英格兰保护区城市设计控制制度对中国历史文化街区保护更新的启示

点赞 0举报收藏 0打赏 0评论 0

虚交所
加关注9
~~虚拟资产交易平台~~

相关文档

	双S弯排气系统雷达吸波涂层应用的仿真计算
	短距起飞/垂直降落飞机升力系统研究进展
	航空涡扇发动机机械系统架构和技术综述
	基于Noradamantane的高能量密度富氮笼型含能分子设计与性能预估
	一种视/触觉融合的柔性物体抓取力估计方法
	构建与新发展阶段相适应的现代化意识形态
	猕猴桃叶水浸提液对4种植物化感作用及其化学成分分析
	基于完全但不完美信息序贯博弈计量模型的农地流转影响因素
	病原学送检管理的相关信息化建设要求
	基于非线性加权法的航空发动机总体性能优化设计

本类推荐

	基于Delphi+AHP+FCE的公立医院智慧药房绩效考核指标体系的构建及评价
	面向知识图谱补全的大模型方法综述
	基于多尺度特征融合与矫正的渐进式深度图超分辨率重建
	RC-PBFT: 一种基于信誉分组的改进PBFT算法
	基于细节增强与多尺度特征融合的水下目标检测
	大语言模型与知识图谱协同增强知识组织理论架构研究
	基于注意力的双学生知识蒸馏异常检测方法
	第一类投毒攻击及其特征分析
	道路环境感知的联合特征学习框架
	基于深度学习的壁湍流近壁区域粒子图像测速算法

下载排行