docs(verification): 更新验证章节内容并添加训练前文档示例
更新了验证章节中关于模型和数据集生成的描述,添加了训练前的文档示例图片,并调整了微调参数配置。具体修改包括:更新了Qwen2.5-3B和DeepSeek V3模型的性能描述、开源许可信息,以及微调参数中的LoRA秩和批处理大小等。
This commit is contained in:
parent
7907b96baa
commit
e87d721f47
@ -44,41 +44,45 @@
|
||||
|
||||
本实验选择Qwen2.5-3B作为基础模型进行微调。该模型是阿里云开源的新一代大语言模型,具有以下特点:
|
||||
\begin{itemize}
|
||||
\item 量化程度:4比特,在保持较高性能的同时,对计算资源要求相对较低
|
||||
\item 参数规模:3.09B参数量(非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低
|
||||
\item 训练数据:经过大规模多语言语料训练,具备较强的中英文理解和生成能力
|
||||
\item 上下文窗口:支持128K tokens的上下文窗口和8K tokens的生成长度,适合处理超长技术文档
|
||||
\item 开源许可:采用开源许可证,允许学术研究和商业应用
|
||||
\item 性能表现:在 MMLU、GSM8K、BBH 等权威测试中优于多数同参数级开源模型。
|
||||
\item 参数规模:3.09B参数量(非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低。
|
||||
\item 上下文窗口:支持128K tokens的上下文窗口和8K tokens的生成长度,适合处理超长技术文档。
|
||||
\item 开源许可:采用Qwen Research 许可协议,允许学术研究。
|
||||
\end{itemize}
|
||||
|
||||
\subsubsection{数据集生成模型}
|
||||
\subsubsection{数据集生成}
|
||||
|
||||
本实验采用DeepSeek V3作为数据集生成模型,该模型是深度求索公司开发的新一代大语言模型,具有以下特点:
|
||||
\begin{itemize}
|
||||
\item 模型架构:基于Transformer架构,64K上下文窗口
|
||||
\item 训练数据:经过大规模高质量多语言语料训练,具备强大的代码理解和生成能力
|
||||
\item 推理能力:支持复杂逻辑推理和长文档处理
|
||||
\item 开源许可:采用开源许可证,允许学术研究和商业应用
|
||||
\item 性能表现:在MT-Bench等基准测试中达到开源模型领先水平,推理速度优于同规模模型30\%以上。
|
||||
\item 上下文窗口:在理论上支持 128K tokens 的上下文长度。不过在实际应用中,部分服务商可能会出于硬件或性能优化等考虑,将其限制在 64K tokens
|
||||
\item 开源许可:采用MIT许可协议,允许学术研究。
|
||||
\end{itemize}
|
||||
|
||||
|
||||
|
||||
数据集生成模型通过deepseek ai官方api调用,具体的生成参数如下:
|
||||
\begin{itemize}
|
||||
\item temperature:0.9
|
||||
\item max\_length:4096
|
||||
\end{itemize}
|
||||
|
||||
\subsubsection{仓库文档选择}
|
||||
本实验使用unsloth官方仓库文档(\url{https://docs.unsloth.ai/})进行微调。在训练前,大模型并不了解该项目,如图\ref{fig:before_train}所示。
|
||||
|
||||
实验使用的微调数据集由以下部分组成:
|
||||
|
||||
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
\includegraphics[width=0.8\textwidth]{pic/before_train.png}
|
||||
\caption{训练前的文档内容示例}
|
||||
\label{fig:before_train}
|
||||
\end{figure}
|
||||
|
||||
\subsubsection{微调参数配置}
|
||||
|
||||
本实验采用LoRA(Low-Rank Adaptation)技术进行参数高效微调,主要配置参数如下:
|
||||
\begin{itemize}
|
||||
\item LoRA秩(r):16,控制低秩矩阵的维度
|
||||
\item LoRA秩(r):64,控制低秩矩阵的维度
|
||||
\item LoRA缩放因子(alpha):16,控制LoRA更新的幅度
|
||||
\item 目标模块:attention相关层(q\_proj, k\_proj, v\_proj, o\_proj)和FFN相关层(gate\_proj, up\_proj, down\_proj)
|
||||
\item 学习率:2e-4,采用余弦学习率调度策略
|
||||
\item 批处理大小:每设备4个样本
|
||||
\item 批处理大小:每设备1个样本
|
||||
\item 训练轮次:3个epoch
|
||||
\item 优化器:AdamW,权重衰减为0.01
|
||||
\item 梯度累积步数:4,用于增大有效批处理大小
|
||||
|
BIN
paper/latex/pic/before_train.png
Normal file
BIN
paper/latex/pic/before_train.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 73 KiB |
Loading…
x
Reference in New Issue
Block a user