深度神经网络动态分层梯度稀疏化及梯度合并优化方法

2024-05-28 西安交通大学学报210 1.34M 0

  摘要:针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀疏优化方法,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。之后,提出了层梯度合并方法,利用动态规划算法对层梯度合并时的通信开销、稀疏化及层梯度计算时间进行权衡优化,求解出最佳的层梯度合并组合,实现将多层小尺度梯度张量合并为一层通信,以降低分层梯度决策时引入的过高通信延迟开销。最后,将求解出的最佳层梯度合并组合应用于具体的训练迭代过程。实验结果表明,所提方法和已有方法相比可在保证模型训练精度的同时,大大降低通信开销,提升模型的训练速度,和未压缩方法相比,训练速度最大可提升1.99倍。

  文章目录

  1相关工作

  1.1梯度压缩

  1.2梯度分布

  1.3计算与通信重叠

  2动态分层梯度稀疏化

  2.1全局Top-K梯度稀疏化局限性分析

  2.2动态分层梯度稀疏化方法

  2.3动态分层梯度压缩算法

  3层梯度合并

  3.1层梯度合并策略

  3.1.1 训练过程分析

  3.1.2 合并过程分析

  3.2优化目标

  3.3层梯度合并算法

  3.4层合并后训练执行流程

  4.实验

  4.1实验设置

  4.2实验结果与分析

  4.2.1 并行训练精度、损失对比

  4.2.2 训练耗时对比

  4.2.3 压缩性能分析

  5.结论



您还没有登录,请登录后查看详情



 

1/26专辑:论文下载

举报收藏 0打赏 0评论 0
相关文档
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1