From a44102a8c20500d717eac7252707e145e7269427 Mon Sep 17 00:00:00 2001
From: carry <2641257231@qq.com>
Date: Thu, 29 May 2025 16:22:00 +0800
Subject: [PATCH] =?UTF-8?q?docs(paper):=20=E6=9B=B4=E6=96=B0=E6=A8=A1?=
 =?UTF-8?q?=E5=9E=8B=E9=87=8F=E5=8C=96=E7=AB=A0=E8=8A=82=E7=9A=84=E6=95=B0?=
 =?UTF-8?q?=E5=AD=A6=E5=85=AC=E5=BC=8F=E5=92=8C=E5=86=85=E5=AE=B9=E8=A1=A8?=
 =?UTF-8?q?=E8=BF=B0?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

优化模型量化章节的数学公式展示方式，将equation环境改为equation*以去除编号
将列表形式的内存压缩数据改为更简洁的文本描述
保持技术内容的准确性和完整性，同时提高文档的可读性
---
 paper/latex/chapters/technology.tex | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/paper/latex/chapters/technology.tex b/paper/latex/chapters/technology.tex
index 75668db..6356598 100644
--- a/paper/latex/chapters/technology.tex
+++ b/paper/latex/chapters/technology.tex
@@ -83,22 +83,19 @@ LLM 可以分析代码，识别潜在的错误模式或问题，帮助开发者
 模型量化的主要目的是减少模型的内存占用、提高推理速度并降低能耗，使其更易于部署在资源受限的设备上，如移动设备或边缘服务器。
 
 该技术的数学本质是通过线性映射将浮点值域$[r_{\text{min}}, r_{\text{max}}]$映射到整数空间，其量化与反量化过程可表示为：
-\begin{equation}
+\begin{equation*}
 \begin{aligned}
 q &= \text{round}\left(\frac{r - r_{\text{min}}}{s}\right) \\
 \hat{r} &= s \cdot q + r_{\text{min}}
 \end{aligned}
-\end{equation}
+\end{equation*}
 其中$s=(r_{\text{max}}-r_{\text{min}})/(2^n-1)$为量化步长，$n$为量化位数，$\epsilon=r-\hat{r}$为量化误差。
 
 这种转换显著降低了存储模型所需的内存空间，并且由于低精度运算通常比高精度运算更快，因此可以提高模型的推理速度。
 此外，更快的计算和减少的内存访问通常会降低功耗，这对于电池供电的设备尤其重要，这些极端量化形式显著减小模型尺寸和计算复杂度的同时，精度下降也更明显。
 
 不同的量化级别（如 INT8 和 INT4）对模型性能和资源消耗影响不同。一般来说，更低的量化级别（例如从 INT8 到 INT4）可以进一步减少模型大小并提高推理速度，但通常会导致更大精度损失。量化误差分析表明，当权重服从均匀分布时，误差方差$\text{Var}(\epsilon)\approx s_W^2/12$，与量化步长平方成正比。内存优化效果可通过压缩比$(32-n)/32$量化，例如：
-\begin{itemize}
-\item INT8：75\% 内存压缩
-\item INT4：87.5\% 内存压缩
-\end{itemize}
+具体而言，INT8量化可实现75\%的内存压缩率，而更激进的INT4量化则能达到87.5\%的内存压缩率。
 
 INT8 量化通常被认为是性能和精度之间的良好折衷方案，可在保持较高模型准确性的同时，显著降低内存占用和提高推理速度。INT4 量化更为激进，可实现更高压缩率和更快速度，但通常伴随更明显精度下降，更适用于对资源限制非常严格但对精度要求相对较低的场景。选择合适的量化技术和级别需要在模型大小、推理速度和精度之间进行权衡，通常取决于具体应用场景和硬件条件。