目前,神经网络模型的计算复杂度与更新迭代速度正呈现出爆炸式增长的趋势.为了在设备上高效使用神经网络算法,加速神经网络的技术得到了学术界与工业界的关注.主流的神经网络加速器,主要包含两大类.第一类通常针对特定类型的神经网络进行定制化加速,提升神经网络算法的性能.然而,这类定制加速器方案存在可扩展性较差,计算数据流固定等局限性.这种局限性使得这些方案无法灵活应对需要频繁切换网络模型的应用场景,尤其在高动态切换和实时响应的场景中表现不佳.第二类则是基于指令集Overlay处理器.这类方案首先提出一套针对人工智能(artificial intelligence,AI)加速的指令集,在面向新型网络时,可通过扩展指令实现快速支持.与此同时,通过编译器在软件侧实现神经网络计算图的优化、指令分配和映射的优化;通过硬件架构在硬件侧完成数据流、并行化等加速优化.对此,本文首先分析了专用定制神经网络加速器与通用覆盖神经网络处理器(Overlay neural network processing)的设计理念和架构特点.其次通过对这两类加速器在设计方案、灵活性以及应用适用性方面的详细比较,本文深入探讨了通用Overlay神经网络处理器,强调其在易用性、扩展性和通用性方面的显著优势.再次对现有通用Overlay神经网络处理器的现场可编程门阵列(fieldprogrammable gate array, FPGA)原型进行了系统分类,并对每一类处理器的设计原理、实现方法以及实际应用中的表现进行了深入剖析.最后本文讨论了通用Overlay神经网络处理器在设计过程中面临的挑战,并展望了该技术在未来发展中的潜在方向和应用场景,以期为今后的研究工作提供参考和借鉴.