基于“部分剪支”的CNN加速器的软硬件协同优化方法
本文改良了传统的“剪裁CNN”的方法,在低精度损失的前提下实现了高压缩率,这对于在FPGA和ASIC上实现卷积神经网络有着重要的实践意义。
本文提出了一种全新的压缩模型压缩策略,并基于该策略提出了一种软硬件协同优化的策略。
论文提出对不同的层采用不同的压缩策略。所有层分为两种类型:NP层和P层。在开始时,所有层都被修剪。然后用增量量化对P层进行量化。在量化过程中,P层的修剪和量化引入的误差通过NP层的权值更新来补偿,之后NP层不再稀疏。该模型具有更强的容错能力,从而使模型更容易收敛。
如上图所示,论文提出了混合量化的方法以达到较大压缩率与较小精度损失之间的折衷。
该论文采用VGG-16模型,在Caffe平台上实现了所提出的压缩策略,与单精度浮点VGG-16模型相比,论文中提出的方法获得27.5×压缩比,top-1精度损失2.04%,top-5精度损失0.44%。
论文分别提出了两种硬件架构来处理两种类型的层(NP/P)。针对NP层的常规卷积模型,提出了一种基于FIR的卷积处理单元和改进的数据流。
如上图所示,复杂卷积处理单元(CCPU)由多个卷积处理单元组成, CCPU内的卷积处理单元数目用 Mnp来表示。
为了提高FIR滤波器的二维卷积性能,论文中提出了一种改进的卷积层数据流:将二维特征映射矩阵集成到一个数组中。
并行度为F的FIR滤波器需要F倍的采样率。针对片内存储空间有限的问题,本文提出了一种F×F乒乓缓冲区(FPPB)。
文中提出了一种提高处理速度的分布式卷积体系结构。同一CCPU(复杂卷积处理单元)中的每个PE单元都有一个RAM来传输特征图,不同的CCPU接收来自不同RAM的权重。因此,数据传输速度与处理速度相匹配,解除了带宽的限制。
P层基于所提出的压缩策略,构建了一个±2n种权值类型的高压缩稀疏模型。用移位操作代替乘法,以减少资源。
文中提出的F × F卷积- pe还可以计算较小的卷积核,这是由输入权值决定的。但如果某些层的卷积核太大(如7X7),提出的卷积处理单元便无法处理,为此对PE单元进行扩展。
论文中提出的方法分别在FPGA和Xilinx VCU118评估版上做了相应的实现,结果表明与当下其他先进的技术相比论文中的方法有着明显的优势。
如上图所示,作者将论文中提出的方法与其他论文中的先进方法进行了多个指标的比较。
关 注 我 们
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。