From 9202135d3b2e16cb549ca6d7647308041aff0fc3 Mon Sep 17 00:00:00 2001
From: carry <2641257231@qq.com>
Date: Thu, 29 May 2025 17:59:29 +0800
Subject: [PATCH] =?UTF-8?q?docs(paper):=20=E4=BF=AE=E6=AD=A3=E6=8A=80?=
 =?UTF-8?q?=E6=9C=AF=E7=AB=A0=E8=8A=82=E4=B8=AD=E7=9A=84=E6=95=B0=E5=AD=A6?=
 =?UTF-8?q?=E5=85=AC=E5=BC=8F=E7=8E=AF=E5=A2=83?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

将技术章节中的数学公式从 equation 环境改为 equation* 环境，以避免公式编号重复的问题
---
 paper/latex/chapters/technology.tex | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/paper/latex/chapters/technology.tex b/paper/latex/chapters/technology.tex
index d9fd6f1..05247bd 100644
--- a/paper/latex/chapters/technology.tex
+++ b/paper/latex/chapters/technology.tex
@@ -115,11 +115,11 @@ QLoRA 引入了多项创新技术以在节省内存的同时不牺牲性能。
 QLoRA 的主要优势在于其能够在资源受限情况下实现高效微调。通过将预训练模型量化到 4 位并仅训练少量低秩适配器，QLoRA 显著降低了微调所需的 GPU 内存。例如，QLoRA 能够将微调一个 650 亿参数模型的平均 GPU 内存需求从超过 780GB 降低到低于 48GB，且不降低运行时或预测性能。这使得在单个消费级 GPU 上微调大型模型成为可能，从而大大降低了微调 LLM 的门槛。研究表明，使用 QLoRA 微调的 LLM 在各种任务上可以达到与全精度微调相当甚至更好的性能。
 
 低秩适配器（LoRA）是 QLoRA 的关键组成部分。LoRA 的核心思想是，大型预训练模型在适应下游任务时，其权重变化具有低秩特性\cite{Hu2021Lora}。因此，LoRA 冻结原始预训练模型的权重，并在每个 Transformer 层的自注意力模块中注入两个小的低秩矩阵（A 和 B）。LoRA 的数学原理可以表示为：
-\begin{equation}
+\begin{equation*}
 \begin{gathered}
 W = W_0 + \Delta W = W_0 + BA
 \end{gathered}
-\end{equation}
+\end{equation*}
 其中，$W_0 \in \mathbb{R}^{d \times k}$ 是预训练模型中的原始权重矩阵，$\Delta W = BA$ 是低秩更新，$B \in \mathbb{R}^{d \times r}$，$A \in \mathbb{R}^{r \times k}$，且秩 $r \ll \min(d, k)$。通过这种方式，原本需要训练 $d \times k$ 个参数，现在只需要训练 $r \times (d + k)$ 个参数。例如，当 $d = k = 1000$ 且 $r = 8$ 时，可训练参数数量从 $10^6$ 减少到约 $1.6 \times 10^4$，减少了约 98.4\%。
 
 微调过程中仅更新这些低秩矩阵的参数，原始模型的权重保持不变。这大大减少了需要训练的参数数量，从而降低了计算成本和内存需求。LoRA 的线性设计也确保与完全微调的模型相比，不会引入额外推理延迟。在推理阶段，可以将低秩更新与原始权重合并：$W = W_0 + BA$，从而不增加模型的推理延迟。QLoRA 通过结合量化和 LoRA，为在资源受限环境中高效微调大语言模型提供了有力方法，使得研究人员和从业人员能够更容易利用和定制最先进的 LLM，推动 NLP 领域进一步发展。