diff --git a/paper/latex/chapters/verification.tex b/paper/latex/chapters/verification.tex index 0305118..1d98e0c 100644 --- a/paper/latex/chapters/verification.tex +++ b/paper/latex/chapters/verification.tex @@ -44,41 +44,45 @@ 本实验选择Qwen2.5-3B作为基础模型进行微调。该模型是阿里云开源的新一代大语言模型,具有以下特点: \begin{itemize} - \item 量化程度:4比特,在保持较高性能的同时,对计算资源要求相对较低 - \item 参数规模:3.09B参数量(非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低 - \item 训练数据:经过大规模多语言语料训练,具备较强的中英文理解和生成能力 - \item 上下文窗口:支持128K tokens的上下文窗口和8K tokens的生成长度,适合处理超长技术文档 - \item 开源许可:采用开源许可证,允许学术研究和商业应用 + \item 性能表现:在 MMLU、GSM8K、BBH 等权威测试中优于多数同参数级开源模型。 + \item 参数规模:3.09B参数量(非嵌入参数2.77B),在保持较高性能的同时,对计算资源要求相对较低。 + \item 上下文窗口:支持128K tokens的上下文窗口和8K tokens的生成长度,适合处理超长技术文档。 + \item 开源许可:采用Qwen Research 许可协议,允许学术研究。 \end{itemize} -\subsubsection{数据集生成模型} +\subsubsection{数据集生成} 本实验采用DeepSeek V3作为数据集生成模型,该模型是深度求索公司开发的新一代大语言模型,具有以下特点: \begin{itemize} - \item 模型架构:基于Transformer架构,64K上下文窗口 - \item 训练数据:经过大规模高质量多语言语料训练,具备强大的代码理解和生成能力 - \item 推理能力:支持复杂逻辑推理和长文档处理 - \item 开源许可:采用开源许可证,允许学术研究和商业应用 + \item 性能表现:在MT-Bench等基准测试中达到开源模型领先水平,推理速度优于同规模模型30\%以上。 + \item 上下文窗口:在理论上支持 128K tokens 的上下文长度。不过在实际应用中,部分服务商可能会出于硬件或性能优化等考虑,将其限制在 64K tokens + \item 开源许可:采用MIT许可协议,允许学术研究。 \end{itemize} - - +数据集生成模型通过deepseek ai官方api调用,具体的生成参数如下: +\begin{itemize} + \item temperature:0.9 + \item max\_length:4096 +\end{itemize} \subsubsection{仓库文档选择} +本实验使用unsloth官方仓库文档(\url{https://docs.unsloth.ai/})进行微调。在训练前,大模型并不了解该项目,如图\ref{fig:before_train}所示。 -实验使用的微调数据集由以下部分组成: - - +\begin{figure}[htbp] + \centering + \includegraphics[width=0.8\textwidth]{pic/before_train.png} + \caption{训练前的文档内容示例} + \label{fig:before_train} +\end{figure} \subsubsection{微调参数配置} 本实验采用LoRA(Low-Rank Adaptation)技术进行参数高效微调,主要配置参数如下: \begin{itemize} - \item LoRA秩(r):16,控制低秩矩阵的维度 + \item LoRA秩(r):64,控制低秩矩阵的维度 \item LoRA缩放因子(alpha):16,控制LoRA更新的幅度 - \item 目标模块:attention相关层(q\_proj, k\_proj, v\_proj, o\_proj)和FFN相关层(gate\_proj, up\_proj, down\_proj) \item 学习率:2e-4,采用余弦学习率调度策略 - \item 批处理大小:每设备4个样本 + \item 批处理大小:每设备1个样本 \item 训练轮次:3个epoch \item 优化器:AdamW,权重衰减为0.01 \item 梯度累积步数:4,用于增大有效批处理大小 diff --git a/paper/latex/pic/before_train.png b/paper/latex/pic/before_train.png new file mode 100644 index 0000000..68bc9cd Binary files /dev/null and b/paper/latex/pic/before_train.png differ