From 9aff1875e25b56d9c88b3502ebf4ea204823d872 Mon Sep 17 00:00:00 2001 From: carry <2641257231@qq.com> Date: Thu, 29 May 2025 13:10:35 +0800 Subject: [PATCH] =?UTF-8?q?docs(paper):=20=E5=AE=8C=E5=96=84=E6=8A=80?= =?UTF-8?q?=E6=9C=AF=E6=9C=AF=E8=AF=AD=E7=9A=84=E8=8B=B1=E6=96=87=E5=85=A8?= =?UTF-8?q?=E7=A7=B0=E5=92=8C=E7=BC=A9=E5=86=99?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 在介绍章节中补充了大语言模型相关技术术语的英文全称,包括RAG、SLM、DAPT等,提高论文的专业性和可读性 --- paper/latex/chapters/introduction.tex | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/paper/latex/chapters/introduction.tex b/paper/latex/chapters/introduction.tex index 423b9d2..c2baa91 100644 --- a/paper/latex/chapters/introduction.tex +++ b/paper/latex/chapters/introduction.tex @@ -13,11 +13,11 @@ \subsection{国内外研究现状} \subsubsection{大语言模型微调研究现状} -大语言模型微调研究在国内外均呈现快速发展态势。在国内,智源研究院与TeleAI联合开发的"悟道·天鹰"系列模型代表了重要进展,其520亿参数版本的开源显著促进了国内AI社区发展。这些模型在部分中英文基准测试中表现出与Llama3-70B和GPT-4相当甚至更优的性能。为解决"幻觉"问题,智源研究院开发的BGE系列向量模型通过检索增强生成(RAG)技术有效提升了模型准确性。 +大语言模型微调研究在国内外均呈现快速发展态势。在国内,智源研究院与TeleAI联合开发的"悟道·天鹰"系列模型代表了重要进展,其520亿参数版本的开源显著促进了国内AI社区发展。这些模型在部分中英文基准测试中表现出与Llama3-70B和GPT-4相当甚至更优的性能。为解决"幻觉"问题,智源研究院开发的BGE系列向量模型通过检索增强生成(Retrieval-Augmented Generation,RAG)技术有效提升了模型准确性。 -国内外研究均呈现出对小型语言模型(SLM)的高度关注。SLM在计算资源需求和训练成本方面具有明显优势,表明经过领域特定微调的SLM在特定任务上可超越更大的通用模型。清华大学、北京大学和中国科学院等机构在LLM研究中发挥重要作用,其应用范围从古籍数字化到医学研究等多个领域。 +国内外研究均呈现出对小型语言模型(Small Language Model,SLM)的高度关注。SLM在计算资源需求和训练成本方面具有明显优势,表明经过领域特定微调的SLM在特定任务上可超越更大的通用模型。清华大学、北京大学和中国科学院等机构在LLM研究中发挥重要作用,其应用范围从古籍数字化到医学研究等多个领域。 -国际研究重点关注长输出大语言模型及其生成连贯长文本的能力。研究人员广泛探索了参数知识适应(如DAPT、IT、PL和模型编辑)和半参数知识适应(如RAG和基于Agent的系统)等技术,以在保留通用知识的同时提高特定任务性能。研究发现,即使少量监督微调数据也能有效激活预训练模型中的知识。 +国际研究重点关注长输出大语言模型及其生成连贯长文本的能力。研究人员广泛探索了参数知识适应(如Domain-Adaptive Pre-Training (DAPT)、Instruction Tuning (IT)、Prompt Learning (PL)和模型编辑)和半参数知识适应(如RAG和基于Agent的系统)等技术,以在保留通用知识的同时提高特定任务性能。研究发现,即使少量监督微调数据也能有效激活预训练模型中的知识。 尽管取得进展,微调研究仍面临诸多挑战。国内主要挑战包括模型创新不足、高质量训练数据稀缺以及"幻觉"问题限制了模型在高精度应用中的可靠性。国际上,长输出LLM面临高质量长序列数据缺乏和连贯性维持困难等问题,同时大模型的高计算成本也推动了对更高效模型的需求。