第 1章 语义表达 1
1.1 词向量与语义信息 1
1.1.1 稀疏词向量 2
1.1.2 分布式语义假设 2
1.1.3 稠密词向量 3
1.2 溢出词表词的处理方法 6
1.3 分词方法的区别与影响 11
1.3.1 词(word) 11
1.3.2 子词(subword) 12
1.3.3 字符(char) 16
1.4 词向量与语义相似度 17
1.5 构建句子向量 19
1.6 预训练的位置编码 22
1.7 BERT的不同嵌入类型 25
1.8 大模型语义建模的典型架构 27
第 2章 大模型的数据 31
2.1 大模型训练开源数据集 31
2.2 大模型不同训练环节与数据量 35
2.3 大模型数据预处理 39
2.3.1 数据的质量 39
2.3.2 数据的多样性 40
2.4 大模型扩展法则 43
2.5 持续预训练与灾难性遗忘 47
2.6 大模型指令微调的数据筛选 49
第3章 大模型的预训练 53
3.1 预训练与监督微调辨析 53
3.2 大模型的涌现能力 56
3.3 大模型预训练阶段的实验提效方法 58
3.4 大模型开发流程三阶段:预训练、监督微调和强化学习 61
3.4.1 大模型预训练 61
3.4.2 大模型的监督微调 61
3.4.3 大模型的强化学习 62
3.5 大模型训练显存计算与优化 63
3.6 大模型训练通信开销计算 75
3.6.1 集合通信原语 76
3.6.2 数据并行的工作原理和通信开销计算 80
3.6.3 张量并行的工作原理和通信开销计算 81
3.6.4 流水线并行的工作原理和通信开销计算 84
3.6.5 使用ZeRO优化技术时的通信开销计算 85
第4章 大模型的对齐 87
4.1 对齐数据构造 87
4.2 PPO算法 88
4.3 奖励模型训练 96
4.4 PPO稳定训练的方法 99
4.4.1 设计合理的评估指标对PPO训练过程进行监控 100
4.4.2 对损失和梯度进行标准化和裁剪 101
4.4.3 改进损失函数 102
4.4.4 优化评论家模型和演员模型的初始化方式 102
4.5 DPO算法 103
4.6 DPO与PPO辨析 105
4.6.1 计算资源方面:DPO所需计算资源比PPO少 106
4.6.2 训练稳定性方面:DPO的训练稳定性高于PPO 106
4.6.3 效果方面:PPO的泛化能力优于DPO 106
4.7 其他偏好对齐方法综述 108
4.7.1 PPO类 108
4.7.2 DPO类 113
4.7.3 非强化学习类 117
4.7.4 数据类 119
4.8 对齐训练稳定性监测 119
4.8.1 监督微调阶段 119
4.8.2 强化学习对齐训练阶段 121
4.9 大模型后训练环节辨析 122
第5章 大模型的垂类微调 124
5.1 (垂类)监督微调 124
5.2 后训练的词表扩充 128
5.3 有效的长度外推方法 130
5.4 大模型微调的损失函数 140
5.4.1 Cross Entropy Loss(交叉熵损失) 140
5.4.2 z-loss 141
5.4.3 EMO loss 142
5.5 大模型知识注入方法 144
5.5.1 模型的继续预训练与监督微调 144
5.5.2 检索增强生成 145
第6章 大模型的组件 147
6.1 Transformer的架构 147
6.2 注意力分数计算细节 153
6.3 词元化算法的区别与特点 156
6.3.1 基于单词的词元化 157
6.3.2 基于字符的词元化 157
6.3.3 基于子词的词元化 158
6.4 RoPE 160
6.5 ALiBi 165
6.5.1 ALiBi的工作原理 166
6.5.2 ALiBi的外推能力实验 167
6.5.3 ALiBi的训练推理效率实验 168
6.5.4 ALiBi的代码实现 169
6.6 Sparse Attention 169
6.7 Linear Attention 173
6.8 多头注意力机制及其优化(MHA、MQA 和GQA) 175
6.8.1 多头注意力机制的代码实现 175
6.8.2 Transformer解码器在解码过程中的性能瓶颈 178
6.8.3 多查询注意力和分组查询注意力的工作原理 179
6.9 各种归一化方法 181
6.9.1 归一化方法的作用 181
6.9.2 BatchNorm的工作原理 182
6.9.3 LayerNorm的工作原理 183
6.9.4 RMSNorm的工作原理 184
6.10 归一化模块位置的影响——PostNorm和PreNorm 184
6.10.1 PostNorm和PreNorm的工作原理 185
6.10.2 PostNorm和PreNorm的差异 185
6.11 Dropout机制 187
6.11.1 Dropout的实现流程和原理 188
6.11.2 避免训练和推理时的期望偏移 188
6.11.3 避免训练和推理时的方差偏移 189
6.12 模型训练参数初始化方法概述 190
6.12.1 固定值初始化 191
6.12.2 预训练初始化 191
6.12.3 基于固定方差的初始化 191
6.12.4 基于方差缩放的初始化 191
第7章 大模型的评估 194
7.1 大模型的评测榜单与内容 194
7.2 大模型评测的原则 199
7.3 大模型的修复方法 200
7.3.1 badcase定义 201
7.3.2 badcase修复思路 201
7.3.3 实践解法 202
7.4 生成式模型的评测指标 203
7.5 大模型的自动化评估 209
7.6 大模型的对抗性测试 211
7.7 大模型的备案流程 212
第8章 大模型的架构 217
8.1 因果解码器架构成为主流的原因 217
8.2 大模型的集成融合方法 220
8.3 MoE 226
第9章 检索增强生成 233
9.1 RAG的组成与评估 233
9.2 RAG中的召回方法 237
9.3 RAG与重排 241
9.4 RAG的工程化问题 244
第 10章 大模型智能体 248
10.1 智能体的组成 248
10.2 智能体的规划能力 251
10.3 智能体的记忆模块 255
10.4 智能体的工具调用 257
10.5 XAgent框架 263
10.6 AutoGen框架 266
10.7 智能体框架实践 269
第 11章 大模型PEFT 273
11.1 LoRA 273
11.1.1 LoRA的设计思路 273
11.1.2 LoRA的具体实现流程 274
11.2 PEFT方法概述 279
11.3 PEFT与全参数微调 286
第 12章 大模型的训练与推理 288
12.1 大模型解码与采样方法综述 288
12.2 大模型生成参数及其含义 292
12.3 大模型训练与推理预填充阶段的加速方法——FlashAttention 297
12.4 大模型专家并行训练 317
12.5 大模型推理加速——PagedAttention 321
12.5.1 为什么对KV缓存的内存管理效率是影响推理系统吞吐量的关键因素 322
12.5.2 PagedAttention如何提高对KV缓存的内存管理效率 325
12.6 大模型量化的细节 327
12.7 大模型多维并行化训练策略 328
第 13章 DeepSeek 335
13.1 DeepSeek系列模型架构创新 335
13.1.1 大数量小尺寸的混合专家设计 337
13.1.2 MLA 343
13.1.3 多词元预测 351
13.2 DeepSeek-R1训练流程 353
参考文献 357
· · · · · · (
收起)
2 有用 Evergreen 2025-09-01 06:06:24 广东
书名中包含了大模型,可实际上是以LLM为主大模型。书里看似想把很多内容加进去,但是详略不当,主次不够分明,导致有些知识需要额外查阅资料才理解,例如封面中写了MOE,现在MOE是不少大厂的选择之一,面试中也是经常考察,但放在了第八章和deepseek章节中才介绍,MOE中比较关键的路由机制却放在了deepseek章节,比较零散。另外大模型与强化学习结合,构建智能体是很热门的方向,但相关内容的介绍简略... 书名中包含了大模型,可实际上是以LLM为主大模型。书里看似想把很多内容加进去,但是详略不当,主次不够分明,导致有些知识需要额外查阅资料才理解,例如封面中写了MOE,现在MOE是不少大厂的选择之一,面试中也是经常考察,但放在了第八章和deepseek章节中才介绍,MOE中比较关键的路由机制却放在了deepseek章节,比较零散。另外大模型与强化学习结合,构建智能体是很热门的方向,但相关内容的介绍简略不全。 (展开)
11 有用 阿东该 2025-05-25 09:53:04 山东
介绍大模型的书,要不咱在写的时候借鉴一下大模型给的回答呗,你们写的东西真不如我直接拿着你们出的面试题去问大模型。另外,很不喜欢书里大段代码。代码我可以让大模型生成,我还能编辑调试。自然语言都描述不好,你还写书干啥。 这书最有价值的就是提出这些问题,给我这些检索关键词。
0 有用 SmilingWayne 2025-10-12 01:23:05 江苏
再献上一本五星好评。无论是对于已经熟悉的,还是我这种不入流勉强入门的小鸡仔(哪怕很少接触过)都是一本质量够硬的书,当然最佳的打开方式是拥有一些LLM基础、矩阵基础,对基础模型有了解(哪怕不多也行!)
0 有用 Nothing 2026-04-26 22:04:25 北京
比较全面,但与之对应的就是比较宽泛,而且表述得不清楚
0 有用 crazy boy 2025-07-06 19:52:15 青海
又看了几天,发现这本书还是很值得五星的。一开始看确实有一点难读,自己去网上查,问大模型,回来再看书,就好理解多了。这本书涵盖的知识很多很杂,看得出来作者倾注了大量心血收集问题,解答问题,极力想帮助读者迅速掌握常见的面试知识。但是确实有些地方不够细,需要外挂知识库协同理解。总体来讲,我依然会认为是一本好书,是LLM求职者值得拥有的。