docs(verification): 更新验证章节内容并添加训练前文档示例

更新了验证章节中关于模型和数据集生成的描述,添加了训练前的文档示例图片,并调整了微调参数配置。具体修改包括:更新了Qwen2.5-3B和DeepSeek V3模型的性能描述、开源许可信息,以及微调参数中的LoRA秩和批处理大小等。
This commit is contained in:
carry 2025-04-27 22:57:46 +08:00
parent 7907b96baa
commit e87d721f47
2 changed files with 22 additions and 18 deletions

View File

@ -44,41 +44,45 @@
本实验选择Qwen2.5-3B作为基础模型进行微调。该模型是阿里云开源的新一代大语言模型具有以下特点
\begin{itemize}
\item 量化程度4比特在保持较高性能的同时对计算资源要求相对较低
\item 参数规模3.09B参数量非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低
\item 训练数据:经过大规模多语言语料训练,具备较强的中英文理解和生成能力
\item 上下文窗口支持128K tokens的上下文窗口和8K tokens的生成长度适合处理超长技术文档
\item 开源许可:采用开源许可证,允许学术研究和商业应用
\item 性能表现:在 MMLU、GSM8K、BBH 等权威测试中优于多数同参数级开源模型。
\item 参数规模3.09B参数量非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低。
\item 上下文窗口支持128K tokens的上下文窗口和8K tokens的生成长度适合处理超长技术文档。
\item 开源许可采用Qwen Research 许可协议,允许学术研究。
\end{itemize}
\subsubsection{数据集生成模型}
\subsubsection{数据集生成}
本实验采用DeepSeek V3作为数据集生成模型该模型是深度求索公司开发的新一代大语言模型具有以下特点
\begin{itemize}
\item 模型架构基于Transformer架构64K上下文窗口
\item 训练数据:经过大规模高质量多语言语料训练,具备强大的代码理解和生成能力
\item 推理能力:支持复杂逻辑推理和长文档处理
\item 开源许可:采用开源许可证,允许学术研究和商业应用
\item 性能表现在MT-Bench等基准测试中达到开源模型领先水平推理速度优于同规模模型30\%以上。
\item 上下文窗口:在理论上支持 128K tokens 的上下文长度。不过在实际应用中,部分服务商可能会出于硬件或性能优化等考虑,将其限制在 64K tokens
\item 开源许可采用MIT许可协议允许学术研究。
\end{itemize}
数据集生成模型通过deepseek ai官方api调用具体的生成参数如下
\begin{itemize}
\item temperature0.9
\item max\_length4096
\end{itemize}
\subsubsection{仓库文档选择}
本实验使用unsloth官方仓库文档(\url{https://docs.unsloth.ai/})进行微调。在训练前,大模型并不了解该项目,如图\ref{fig:before_train}所示。
实验使用的微调数据集由以下部分组成:
\begin{figure}[htbp]
\centering
\includegraphics[width=0.8\textwidth]{pic/before_train.png}
\caption{训练前的文档内容示例}
\label{fig:before_train}
\end{figure}
\subsubsection{微调参数配置}
本实验采用LoRALow-Rank Adaptation技术进行参数高效微调主要配置参数如下
\begin{itemize}
\item LoRA秩r16控制低秩矩阵的维度
\item LoRA秩r64,控制低秩矩阵的维度
\item LoRA缩放因子alpha16控制LoRA更新的幅度
\item 目标模块attention相关层q\_proj, k\_proj, v\_proj, o\_proj和FFN相关层gate\_proj, up\_proj, down\_proj
\item 学习率2e-4采用余弦学习率调度策略
\item 批处理大小:每设备4个样本
\item 批处理大小:每设备1个样本
\item 训练轮次3个epoch
\item 优化器AdamW权重衰减为0.01
\item 梯度累积步数4用于增大有效批处理大小

Binary file not shown.

After

Width:  |  Height:  |  Size: 73 KiB