docs(paper): 完善技术术语的英文全称和缩写
在介绍章节中补充了大语言模型相关技术术语的英文全称,包括RAG、SLM、DAPT等,提高论文的专业性和可读性
This commit is contained in:
parent
50a33561f4
commit
9aff1875e2
@ -13,11 +13,11 @@
|
||||
\subsection{国内外研究现状}
|
||||
|
||||
\subsubsection{大语言模型微调研究现状}
|
||||
大语言模型微调研究在国内外均呈现快速发展态势。在国内,智源研究院与TeleAI联合开发的"悟道·天鹰"系列模型代表了重要进展,其520亿参数版本的开源显著促进了国内AI社区发展。这些模型在部分中英文基准测试中表现出与Llama3-70B和GPT-4相当甚至更优的性能。为解决"幻觉"问题,智源研究院开发的BGE系列向量模型通过检索增强生成(RAG)技术有效提升了模型准确性。
|
||||
大语言模型微调研究在国内外均呈现快速发展态势。在国内,智源研究院与TeleAI联合开发的"悟道·天鹰"系列模型代表了重要进展,其520亿参数版本的开源显著促进了国内AI社区发展。这些模型在部分中英文基准测试中表现出与Llama3-70B和GPT-4相当甚至更优的性能。为解决"幻觉"问题,智源研究院开发的BGE系列向量模型通过检索增强生成(Retrieval-Augmented Generation,RAG)技术有效提升了模型准确性。
|
||||
|
||||
国内外研究均呈现出对小型语言模型(SLM)的高度关注。SLM在计算资源需求和训练成本方面具有明显优势,表明经过领域特定微调的SLM在特定任务上可超越更大的通用模型。清华大学、北京大学和中国科学院等机构在LLM研究中发挥重要作用,其应用范围从古籍数字化到医学研究等多个领域。
|
||||
国内外研究均呈现出对小型语言模型(Small Language Model,SLM)的高度关注。SLM在计算资源需求和训练成本方面具有明显优势,表明经过领域特定微调的SLM在特定任务上可超越更大的通用模型。清华大学、北京大学和中国科学院等机构在LLM研究中发挥重要作用,其应用范围从古籍数字化到医学研究等多个领域。
|
||||
|
||||
国际研究重点关注长输出大语言模型及其生成连贯长文本的能力。研究人员广泛探索了参数知识适应(如DAPT、IT、PL和模型编辑)和半参数知识适应(如RAG和基于Agent的系统)等技术,以在保留通用知识的同时提高特定任务性能。研究发现,即使少量监督微调数据也能有效激活预训练模型中的知识。
|
||||
国际研究重点关注长输出大语言模型及其生成连贯长文本的能力。研究人员广泛探索了参数知识适应(如Domain-Adaptive Pre-Training (DAPT)、Instruction Tuning (IT)、Prompt Learning (PL)和模型编辑)和半参数知识适应(如RAG和基于Agent的系统)等技术,以在保留通用知识的同时提高特定任务性能。研究发现,即使少量监督微调数据也能有效激活预训练模型中的知识。
|
||||
|
||||
尽管取得进展,微调研究仍面临诸多挑战。国内主要挑战包括模型创新不足、高质量训练数据稀缺以及"幻觉"问题限制了模型在高精度应用中的可靠性。国际上,长输出LLM面临高质量长序列数据缺乏和连贯性维持困难等问题,同时大模型的高计算成本也推动了对更高效模型的需求。
|
||||
|
||||
|
Loading…
x
Reference in New Issue
Block a user