问题：

Tensorflow Lite推断-如何缩小卷积层输出？

齐学文

2023-03-14

我用一个卷积层建立了一个简单的CNN模型，并用Tensorflow Lite进行了转换。（对于MNIST！！）所以现在我的模型得到8位整数输入，权重也是8位整数。

我想测试从TFLite获得的参数，所以我为推理步骤编写了C代码。

输入图像像素被赋予0到255之间的8位整数，权重在-128到127之间。（偏差是32位整数。）当然，卷积结果由大于255的数字组成。

我检查了这份文件(https://arxiv.org/pdf/1712.05877.pdf，“仅用于有效整数算术推理的神经网络的量化和训练”），它有一些如何处理卷积结果的技巧。它说我必须（1）缩小比例，（2）缩小（到uint8），以及（3）应用激活函数来生成8位输出。

根据我的理解，我需要将2^（-n）乘以卷积结果。因此，我将卷积输出除以256，并将最大数限制为255，并进一步使用完全连接的层权重计算它们。

它显示了一个很好的结果（准确度为0.96），但没有TFLite评估所说的那么高。（准确度0.98）

我认为我做得不对，因为“256”（我把卷积输出分成）是一个随机数。实际上，当我把它改成340时，它显示了最好的结果，但仍然远远低于使用TFLite解释器的TFLite评估。

实现推理步骤的正确而复杂的方法是什么？我如何缩小规模？

贡俊

2023-03-14

这是一个关于TF Lite中量化的基本原理的大问题。你提到的论文是一个很好的参考和理解基础数学的指南。TF Lite现在使用与上述论文略有不同的量化方案，但仍然完全支持在当前方案实施之前转换的模型。您可以在这里查看新的量化方案的详细信息，以供参考：

https://www.tensorflow.org/lite/performance/quantization_spec

您的问题的答案同样适用于TF Lite中的所有量化方案。对于您问题的细节，您希望了解如何从32位累加器（将激活*过滤器的所有乘积相加的结果）到量化值（uint8或int8）。从本文中，您可以看到矩阵乘法（对于您感兴趣的卷积情况，它是一种类似的算法）是使用所有整数运算完成的，除了第2.2节等式5中定义的实值乘法器M。量化方案的目标是在纯整数运算中执行所有数学运算，因此挑战是“如何用纯整数运算乘以实值M？”。

“诀窍”是表示M，如等式6所示，作为2乘以负指数M_0，这是一个至少为0.5的实数，并从上面以1为界。乍一看，这似乎并没有使我们的问题变得更容易。但是，首先考虑<代码> 2 ^（-n）< /代码>部分。这可以在计算机上表示为一点点的移位（我将在一秒钟内讨论舍入）。假设处理了任何舍入问题，这一部分只需使用整数运算即可轻松完成。现在来看mu0部分。通过构造，我们将M_0绑定到一个范围，在该范围内，我们可以使用整数类型的定点表示（例如int32），并将所有位用作分数位（如果您不熟悉定点表示，您可能需要参考外部信息源）。

我们把M_0的32位定点表示称为“量化乘数”。您可以在下面的链接中看到操作的细节，但是，本质上，将累加器乘以量化乘法器涉及到一个标准整数乘法，得到一个64位的数字，然后得到该结果的高32位。

实际代码有点难理解，因为有各种各样的问题需要通过适当的舍入（如本文所讨论的）、溢出、值饱和、箝位等来处理。您可以通过查看此处的参考实现来开始理解它：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/kernels/internal/common.h#L153-L162

其中SatatingRoundingDoublingHighMul通过量化乘法器实现定点乘法，并且RoundingDiVideByPOT通过2^（-n）实现乘法。

在设备上运行的实际代码中，TF Lite使用各种优化指令来实现这种算法，但是参考代码得到相同的答案，并且更容易检查和理解。希望有帮助！

Tensorflow Lite推断-如何缩小卷积层输出？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档