From a44102a8c20500d717eac7252707e145e7269427 Mon Sep 17 00:00:00 2001 From: carry <2641257231@qq.com> Date: Thu, 29 May 2025 16:22:00 +0800 Subject: [PATCH] =?UTF-8?q?docs(paper):=20=E6=9B=B4=E6=96=B0=E6=A8=A1?= =?UTF-8?q?=E5=9E=8B=E9=87=8F=E5=8C=96=E7=AB=A0=E8=8A=82=E7=9A=84=E6=95=B0?= =?UTF-8?q?=E5=AD=A6=E5=85=AC=E5=BC=8F=E5=92=8C=E5=86=85=E5=AE=B9=E8=A1=A8?= =?UTF-8?q?=E8=BF=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 优化模型量化章节的数学公式展示方式,将equation环境改为equation*以去除编号 将列表形式的内存压缩数据改为更简洁的文本描述 保持技术内容的准确性和完整性,同时提高文档的可读性 --- paper/latex/chapters/technology.tex | 9 +++------ 1 file changed, 3 insertions(+), 6 deletions(-) diff --git a/paper/latex/chapters/technology.tex b/paper/latex/chapters/technology.tex index 75668db..6356598 100644 --- a/paper/latex/chapters/technology.tex +++ b/paper/latex/chapters/technology.tex @@ -83,22 +83,19 @@ LLM 可以分析代码,识别潜在的错误模式或问题,帮助开发者 模型量化的主要目的是减少模型的内存占用、提高推理速度并降低能耗,使其更易于部署在资源受限的设备上,如移动设备或边缘服务器。 该技术的数学本质是通过线性映射将浮点值域$[r_{\text{min}}, r_{\text{max}}]$映射到整数空间,其量化与反量化过程可表示为: -\begin{equation} +\begin{equation*} \begin{aligned} q &= \text{round}\left(\frac{r - r_{\text{min}}}{s}\right) \\ \hat{r} &= s \cdot q + r_{\text{min}} \end{aligned} -\end{equation} +\end{equation*} 其中$s=(r_{\text{max}}-r_{\text{min}})/(2^n-1)$为量化步长,$n$为量化位数,$\epsilon=r-\hat{r}$为量化误差。 这种转换显著降低了存储模型所需的内存空间,并且由于低精度运算通常比高精度运算更快,因此可以提高模型的推理速度。 此外,更快的计算和减少的内存访问通常会降低功耗,这对于电池供电的设备尤其重要,这些极端量化形式显著减小模型尺寸和计算复杂度的同时,精度下降也更明显。 不同的量化级别(如 INT8 和 INT4)对模型性能和资源消耗影响不同。一般来说,更低的量化级别(例如从 INT8 到 INT4)可以进一步减少模型大小并提高推理速度,但通常会导致更大精度损失。量化误差分析表明,当权重服从均匀分布时,误差方差$\text{Var}(\epsilon)\approx s_W^2/12$,与量化步长平方成正比。内存优化效果可通过压缩比$(32-n)/32$量化,例如: -\begin{itemize} -\item INT8:75\% 内存压缩 -\item INT4:87.5\% 内存压缩 -\end{itemize} +具体而言,INT8量化可实现75\%的内存压缩率,而更激进的INT4量化则能达到87.5\%的内存压缩率。 INT8 量化通常被认为是性能和精度之间的良好折衷方案,可在保持较高模型准确性的同时,显著降低内存占用和提高推理速度。INT4 量化更为激进,可实现更高压缩率和更快速度,但通常伴随更明显精度下降,更适用于对资源限制非常严格但对精度要求相对较低的场景。选择合适的量化技术和级别需要在模型大小、推理速度和精度之间进行权衡,通常取决于具体应用场景和硬件条件。