docs(paper): 更新模型量化章节的数学公式和内容表述

优化模型量化章节的数学公式展示方式,将equation环境改为equation*以去除编号
将列表形式的内存压缩数据改为更简洁的文本描述
保持技术内容的准确性和完整性,同时提高文档的可读性
This commit is contained in:
carry 2025-05-29 16:22:00 +08:00
parent 9aff1875e2
commit a44102a8c2

View File

@ -83,22 +83,19 @@ LLM 可以分析代码,识别潜在的错误模式或问题,帮助开发者
模型量化的主要目的是减少模型的内存占用、提高推理速度并降低能耗,使其更易于部署在资源受限的设备上,如移动设备或边缘服务器。
该技术的数学本质是通过线性映射将浮点值域$[r_{\text{min}}, r_{\text{max}}]$映射到整数空间,其量化与反量化过程可表示为:
\begin{equation}
\begin{equation*}
\begin{aligned}
q &= \text{round}\left(\frac{r - r_{\text{min}}}{s}\right) \\
\hat{r} &= s \cdot q + r_{\text{min}}
\end{aligned}
\end{equation}
\end{equation*}
其中$s=(r_{\text{max}}-r_{\text{min}})/(2^n-1)$为量化步长,$n$为量化位数,$\epsilon=r-\hat{r}$为量化误差。
这种转换显著降低了存储模型所需的内存空间,并且由于低精度运算通常比高精度运算更快,因此可以提高模型的推理速度。
此外,更快的计算和减少的内存访问通常会降低功耗,这对于电池供电的设备尤其重要,这些极端量化形式显著减小模型尺寸和计算复杂度的同时,精度下降也更明显。
不同的量化级别(如 INT8 和 INT4对模型性能和资源消耗影响不同。一般来说更低的量化级别例如从 INT8 到 INT4可以进一步减少模型大小并提高推理速度但通常会导致更大精度损失。量化误差分析表明当权重服从均匀分布时误差方差$\text{Var}(\epsilon)\approx s_W^2/12$,与量化步长平方成正比。内存优化效果可通过压缩比$(32-n)/32$量化,例如:
\begin{itemize}
\item INT875\% 内存压缩
\item INT487.5\% 内存压缩
\end{itemize}
具体而言INT8量化可实现75\%的内存压缩率而更激进的INT4量化则能达到87.5\%的内存压缩率。
INT8 量化通常被认为是性能和精度之间的良好折衷方案可在保持较高模型准确性的同时显著降低内存占用和提高推理速度。INT4 量化更为激进,可实现更高压缩率和更快速度,但通常伴随更明显精度下降,更适用于对资源限制非常严格但对精度要求相对较低的场景。选择合适的量化技术和级别需要在模型大小、推理速度和精度之间进行权衡,通常取决于具体应用场景和硬件条件。