参考文档

  1. https://www.zhihu.com/question/40503595/answer/161934005 现在的深度学习的模型越来越大,有个结论是说,大脑的激活是非常稀疏的,对模型参数有什么好的办法压缩吗?
  2. http://blog.csdn.net/zyazky/article/details/52932797 网络压缩-量化方法对比
  3. https://yq.aliyun.com/articles/230662?spm=5176.100239.bloglist.12.c02jCq BNN - 基于low-bits量化压缩的跨平台深度学习框架
  4. Deep Learning with Limited Numerical Precision
  5. https://github.com/google/gemmlowp
  6. http://fjdu.github.io/machine/learning/2016/07/07/quantize-neural-networks-with-tensorflow.html 用 TensorFlow 压缩神经网络

权重、激活和梯度

KL散度(相对熵)

熵值法(Entropy method)

范数

线性量化

TensorRT采用的Calibration操作是为了最大化利用有限的量化bit位

舍入模式

多种网络的量化精度,见Deep Learning with Low Precision by Half-wave Gaussian Quantization.P9.Table 7

一般情况下,量化不涉及到CNN网络的第一层和最后一层,因为这样做会对识别精度造成显著的影响。

results matching ""

    No results matching ""