docs(implementation): 修正训练参数和技术描述的格式

统一训练参数和技术描述中的格式,使用 `\allowbreak` 确保 LaTeX 编译时正确换行,并修正部分技术名词的大小写和拼写,以提高文档的可读性和准确性。
This commit is contained in:
carry
2025-04-28 22:12:57 +08:00
parent 2cf8b1b6fd
commit e4919ecf69

View File

@@ -65,9 +65,9 @@ Datasets库构建高效数据管道。将原始Python列表转换为内存映射
\subsubsection{训练流程实现与配置}
为了高效且便捷地进行大规模语言模型的监督式微调本项目选用了一系列成熟且广泛应用的开源框架核心依赖于Hugging Face的`transformers`库,该库提供了丰富的预训练模型、分词器以及用于模型训练的基础设施。在此基础上,结合使用了`trl`Transformer Reinforcement Learning特别是其提供的监督式微调训练器SFTTrainer。该训练器是专门为简化监督式微调任务而设计的它在`transformers`的训练接口之上进行了封装和优化使得研究者能够更专注于数据准备和模型配置而无需处理底层复杂的训练循环逻辑极大地提高了开发效率。这种框架组合提供了强大的功能性和灵活性能够支持复杂模型的加载、PEFT技术的应用以及多样化的训练策略。
模型训练的效果很大程度上取决于训练参数的合理设置。在本项目中通过配置一系列关键参数来控制训练过程的行为这些参数包括但不限于学习率learning\_rate它决定了模型在每次参数更新时的步长每个设备的训练批次大小per\_device\_train\_batch\_size影响显存占用和梯度更新的稳定性梯度累积步数gradient accumulation steps通过累积多个小批次的梯度来模拟使用更大的批次进行训练训练的总步数或总轮数max\_steps / epoch定义了整个训练过程的长度学习率调度器类型lr\_scheduler\_type控制学习率随训练进程的变化策略权重衰减weight decay作为一种正则化手段有助于防止模型过拟合以及随机种子seed用于确保训练结果的可复现性。对这些参数的细致调整是获得高性能模型的关键环节。
模型训练的效果很大程度上取决于训练参数的合理设置。在本项目中通过配置一系列关键参数来控制训练过程的行为这些参数包括但不限于学习率learning\allowbreak\_rate它决定了模型在每次参数更新时的步长每个设备的训练批次大小per\allowbreak\_device\allowbreak\_train\allowbreak\_batch\allowbreak\_size影响显存占用和梯度更新的稳定性梯度累积步数gradient\allowbreak\_accumulation\allowbreak\_steps通过累积多个小批次的梯度来模拟使用更大的批次进行训练训练的总步数或总轮数max\_steps / epoch定义了整个训练过程的长度学习率调度器类型lr\allowbreak\_scheduler\allowbreak\_type控制学习率随训练进程的变化策略权重衰减weight\allowbreak\_decay作为一种正则化手段有助于防止模型过拟合以及随机种子seed用于确保训练结果的可复现性。对这些参数的细致调整是获得高性能模型的关键环节。
训练大型语言模型对计算资源要求极高因此采用了多种优化技术来提升训练效率并降低资源消耗。首先是混合精度训练mixed precision training利用半精度浮点数FP16或BF16进行计算和存储相比于传统的全精度FP32可以显著减少显存占用并加速计算同时通过配合少数全精度参数可以保证训练的稳定性和模型的精度本项目会根据硬件支持情况自动选择合适的半精度类型。其次在优化器选择上采用了诸如AdamW的8位量化版本这种优化器能够大幅度减少优化器状态所需的显存使得在相同硬件条件下可以训练更大的模型或使用更大的批次大小。此外还采用了梯度检查点gradient checkpointing技术这项技术通过在反向传播时重新计算前向传播中的一些中间激活值来显著降低显存峰值占用尤其在使用优化实现时能更高效地平衡计算量和显存消耗。
训练大型语言模型对计算资源要求极高因此采用了多种优化技术来提升训练效率并降低资源消耗。首先是混合精度训练mixed precision training利用半精度浮点数fp16或bf16进行计算和存储相比于传统的全精度FP32可以显著减少显存占用并加速计算同时通过配合少数全精度参数可以保证训练的稳定性和模型的精度本项目会根据硬件支持情况自动选择合适的半精度类型。其次在优化器选择上采用了诸如adamw\_8bit的8位量化版本这种优化器能够大幅度减少优化器状态所需的显存使得在相同硬件条件下可以训练更大的模型或使用更大的批次大小。此外还采用了梯度检查点use\_gradient\_checkpointing技术这项技术通过在反向传播时重新计算前向传播中的一些中间激活值来显著降低显存峰值占用尤其在使用优化实现时能更高效地平衡计算量和显存消耗。
在将准备好的训练数据输入模型之前需要一个数据整理器Data Collator来处理一个批次内的样本。特别是在处理变长序列时数据整理器的作用至关重要。本项目使用了针对序列设计的整理器负责将批次内长度不一的文本序列进行填充padding使其达到批次内的最大长度或预设的最大长度从而能够被模型以张量的形式统一处理。同时数据整理器还会生成相应的注意力掩码attention mask告知模型哪些部分是真实的序列内容确保模型不会在填充位置进行不必要的计算或注意力分配。对于监督式微调任务它还需要协助处理标签的准备配合生成适当的损失掩码loss mask确保损失计算仅发生在目标响应的token上忽略输入提示部分的损失。