docs(implementation): 修正训练参数和技术描述的格式
统一训练参数和技术描述中的格式,使用 `\allowbreak` 确保 LaTeX 编译时正确换行,并修正部分技术名词的大小写和拼写,以提高文档的可读性和准确性。
This commit is contained in:
@@ -65,9 +65,9 @@ Datasets库构建高效数据管道。将原始Python列表转换为内存映射
|
||||
\subsubsection{训练流程实现与配置}
|
||||
为了高效且便捷地进行大规模语言模型的监督式微调,本项目选用了一系列成熟且广泛应用的开源框架,核心依赖于Hugging Face的`transformers`库,该库提供了丰富的预训练模型、分词器以及用于模型训练的基础设施。在此基础上,结合使用了`trl`(Transformer Reinforcement Learning)库,特别是其提供的监督式微调训练器(SFTTrainer)。该训练器是专门为简化监督式微调任务而设计的,它在`transformers`的训练接口之上进行了封装和优化,使得研究者能够更专注于数据准备和模型配置,而无需处理底层复杂的训练循环逻辑,极大地提高了开发效率。这种框架组合提供了强大的功能性和灵活性,能够支持复杂模型的加载、PEFT技术的应用以及多样化的训练策略。
|
||||
|
||||
模型训练的效果很大程度上取决于训练参数的合理设置。在本项目中,通过配置一系列关键参数来控制训练过程的行为,这些参数包括但不限于:学习率(learning\_rate),它决定了模型在每次参数更新时的步长;每个设备的训练批次大小(per\_device\_train\_batch\_size),影响显存占用和梯度更新的稳定性;梯度累积步数(gradient accumulation steps),通过累积多个小批次的梯度来模拟使用更大的批次进行训练;训练的总步数或总轮数(max\_steps / epoch),定义了整个训练过程的长度;学习率调度器类型(lr\_scheduler\_type),控制学习率随训练进程的变化策略;权重衰减(weight decay),作为一种正则化手段,有助于防止模型过拟合;以及随机种子(seed),用于确保训练结果的可复现性。对这些参数的细致调整是获得高性能模型的关键环节。
|
||||
模型训练的效果很大程度上取决于训练参数的合理设置。在本项目中,通过配置一系列关键参数来控制训练过程的行为,这些参数包括但不限于:学习率(learning\allowbreak\_rate),它决定了模型在每次参数更新时的步长;每个设备的训练批次大小(per\allowbreak\_device\allowbreak\_train\allowbreak\_batch\allowbreak\_size),影响显存占用和梯度更新的稳定性;梯度累积步数(gradient\allowbreak\_accumulation\allowbreak\_steps),通过累积多个小批次的梯度来模拟使用更大的批次进行训练;训练的总步数或总轮数(max\_steps / epoch),定义了整个训练过程的长度;学习率调度器类型(lr\allowbreak\_scheduler\allowbreak\_type),控制学习率随训练进程的变化策略;权重衰减(weight\allowbreak\_decay),作为一种正则化手段,有助于防止模型过拟合;以及随机种子(seed),用于确保训练结果的可复现性。对这些参数的细致调整是获得高性能模型的关键环节。
|
||||
|
||||
训练大型语言模型对计算资源要求极高,因此采用了多种优化技术来提升训练效率并降低资源消耗。首先是混合精度训练(mixed precision training),利用半精度浮点数(如FP16或BF16)进行计算和存储,相比于传统的全精度(FP32),可以显著减少显存占用并加速计算,同时通过配合少数全精度参数,可以保证训练的稳定性和模型的精度,本项目会根据硬件支持情况自动选择合适的半精度类型。其次,在优化器选择上,采用了诸如AdamW的8位量化版本,这种优化器能够大幅度减少优化器状态所需的显存,使得在相同硬件条件下可以训练更大的模型或使用更大的批次大小。此外,还采用了梯度检查点(gradient checkpointing)技术,这项技术通过在反向传播时重新计算前向传播中的一些中间激活值来显著降低显存峰值占用,尤其在使用优化实现时,能更高效地平衡计算量和显存消耗。
|
||||
训练大型语言模型对计算资源要求极高,因此采用了多种优化技术来提升训练效率并降低资源消耗。首先是混合精度训练(mixed precision training),利用半精度浮点数(如fp16或bf16)进行计算和存储,相比于传统的全精度(FP32),可以显著减少显存占用并加速计算,同时通过配合少数全精度参数,可以保证训练的稳定性和模型的精度,本项目会根据硬件支持情况自动选择合适的半精度类型。其次,在优化器选择上,采用了诸如adamw\_8bit的8位量化版本,这种优化器能够大幅度减少优化器状态所需的显存,使得在相同硬件条件下可以训练更大的模型或使用更大的批次大小。此外,还采用了梯度检查点(use\_gradient\_checkpointing)技术,这项技术通过在反向传播时重新计算前向传播中的一些中间激活值来显著降低显存峰值占用,尤其在使用优化实现时,能更高效地平衡计算量和显存消耗。
|
||||
|
||||
在将准备好的训练数据输入模型之前,需要一个数据整理器(Data Collator)来处理一个批次内的样本。特别是在处理变长序列时,数据整理器的作用至关重要。本项目使用了针对序列设计的整理器,负责将批次内长度不一的文本序列进行填充(padding),使其达到批次内的最大长度或预设的最大长度,从而能够被模型以张量的形式统一处理。同时,数据整理器还会生成相应的注意力掩码(attention mask),告知模型哪些部分是真实的序列内容,确保模型不会在填充位置进行不必要的计算或注意力分配。对于监督式微调任务,它还需要协助处理标签的准备,配合生成适当的损失掩码(loss mask),确保损失计算仅发生在目标响应的token上,忽略输入提示部分的损失。
|
||||
|
||||
|
Reference in New Issue
Block a user