大语言模型(LLM)初探:核心概念与应用场景
什么是大语言模型?
大语言模型(LLM)的训练可分为两大阶段:
-
基础模型(Foundation Model)预训练
模型通过海量文本进行无监督学习,自主捕捉语言规律(语法结构、语义关联、上下文关系等),本质是学习词汇间的统计表征关系。此阶段模型尚未具备解决具体任务的能力。 -
微调(Fine-tuning)
在预训练模型基础上,使用带标注的小规模数据集进行有监督训练。目标可能是:- 解决特定任务(如命名实体识别)
- 适应垂直领域(如医疗文本)
- 进行**对齐(Alignment)**调整模型行为(如拟人化交互)
注:微调也可通过半监督/强化学习实现,本文暂不展开
LLM 训练的两阶段流程(预训练 → 微调)
两大核心类型
根据输出形式,LLM 可分为两类:
1. 自回归模型(Autoregressive Models)
- 特点:逐词元(token)生成文本,基于上文预测下一个词元
- 代表应用:ChatGPT 等对话系统
- 原理:建模词元的条件概率分布
模型根据上文 “The cat sat on the…” 预测下一个词元
2. 表征模型(Representational Models)
- 特点:将输入文本编码为向量表征(Embeddings)
- 训练方式:通过掩码预测(如 BERT)等方式学习语义表示
- 输出形式:
- 基础模型:直接输出文本向量
- 微调后:可执行分类等任务(如输出情感标签)
关键区别:自回归模型专注文本生成,表征模型专注语义编码
实际应用场景
▌ 表征模型的应用
- 微调后:文本分类、词性标注、文档相似度分析等监督任务
- 向量应用:通过计算向量空间距离实现语义搜索
例:搜索引擎将查询语句向量化,匹配最接近的文档向量
▌ 自回归模型的应用
- 通用场景:通过提示词(Prompt)执行多样化任务
- 局限性:
- 专业领域易产生幻觉(Hallucination)
- 缺乏溯源能力
▌ 混合架构:检索增强生成(RAG)
解决方案:结合表征模型与自回归模型
- 用表征模型构建领域知识库(向量索引)
- 生成时检索相关文档作为上下文
- 自回归模型基于检索结果生成答案
优势:
✅ 提升专业领域准确性
✅ 支持答案溯源(引用来源文档)
结语
通过本文我们理解:
- LLM 训练 = 基础模型预训练 + 任务微调
- 两类核心模型:
- 自回归模型:文本生成引擎
- 表征模型:语义编码器
- 创新架构 RAG 通过「向量检索+文本生成」突破生成模型局限
未来 LLM 的发展将更注重:领域专业化、结果可解释性、多模态融合——而理解这些底层逻辑,是掌握大模型应用的第一步。