ShiftCNN: Generalized Low-Precision Architecture for Inference of Convolutional Neural Networks[简述][Quantization]本文提出的ShiftCNN模型利用类似残差量化方法来进行量化操作，并且将乘法运算替换成了移位和加法来提高计算速度，根据估计Shift-CNN会将乘法运算转换成多次移位运算，并且会附加一些逻辑判断。所以文章只提供了FPGA实现的相关数据，并未提供移动处理器相关的测试。
Extremely Low Bit Neural Network: Squeeze the Last Bit Out with ADMM[简述][Quantization]
Incremental Network Quantization Towards Lossless CNNs with Low-Precision Weights[简述][Quantization]
SBNet: Sparse Blocks Network for Fast Inference[简述][Sparsity]本文是Uber提出的利用稀疏块来加速神经网络推理的方案，值得注意的是论文中提到了SBNet最终的计算还是使用现有的密集卷积实现，这样有利于兼容现有的深度学习框架，具体过程使用了叫做gather和scatter的操作。SBNet的加速效果很大程度上取决于模型的稀疏性，Uber论文中的示例模型和点云处理相关(达到95%稀疏度)，可能会限制其应用范围，这点值得注意。

MEC: Memory-efficient Convolution for Deep Neural Network [简述][Operator]本文通过解决常用的im2col + GEMM计算方式中中间结果内存占用和消耗比较大的问题来进行计算加速，具体方法为分块进行imcol操作(增加内存复用率)来减少内存占用。因为对于嵌入式芯片而言片上SRAM比较小，较小的内存消耗能帮助嵌入式产品得到有效的计算加速效果。

深度学习压缩与加速之(一)概述

results matching ""