内容简介 · · · · · ·
自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命,尤其是近年来出现的基于预训练模型的方法,已成为研究自然语言处理的新范式。本书在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍新的基于预训练模型的自然语言处理技术。本书包括基础知识、预训练词向量和预训练模型三大部分:基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具;预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用;预训练模型部分介绍几种典型的预训练语言模型及应用,以及预训练模型的最新进展。除了理论知识,本书还有针对性地结合具体案例提供相应的PyTorch 代码实现,不仅能让读者对理论有更深刻的理解,还能快速地实现自然语言处理模型,达到理论和实践的统一。
本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深...
自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命,尤其是近年来出现的基于预训练模型的方法,已成为研究自然语言处理的新范式。本书在介绍自然语言处理、深度学习等基本概念的基础上,重点介绍新的基于预训练模型的自然语言处理技术。本书包括基础知识、预训练词向量和预训练模型三大部分:基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具;预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用;预训练模型部分介绍几种典型的预训练语言模型及应用,以及预训练模型的最新进展。除了理论知识,本书还有针对性地结合具体案例提供相应的PyTorch 代码实现,不仅能让读者对理论有更深刻的理解,还能快速地实现自然语言处理模型,达到理论和实践的统一。
本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。
自然语言处理:基于预训练模型的方法的创作者
· · · · · ·
-
郭江 作者
作者简介 · · · · · ·
车万翔
博士,哈尔滨工业大学计算学部长聘教授、博士生导师,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用4,600余次(Google Scholar数据),H-index值为37。出版教材 2 部,译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为...
车万翔
博士,哈尔滨工业大学计算学部长聘教授、博士生导师,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用4,600余次(Google Scholar数据),H-index值为37。出版教材 2 部,译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖;2015、2016连续两年获Google Focused Research Award(谷歌专注研究奖);2016年获黑龙江省科技进步一等奖(排名第2);2012年获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届汉王青年创新奖(个人)等多项奖励。2017年,所主讲的MOOC课程《高级语言程序设计(Python)》获国家精品在线开放课程。
郭江
麻省理工学院计算机科学与人工智能实验室,博士后研究员。毕业于哈尔滨工业大学社会计算与信息检索研究中心,约翰斯·霍普金斯大学联合培养博士,研究方向为自然语言处理与机器学习。在人工智能、自然语言处理领域国际重要会议及期刊(如ACL、EMNLP、AAAI等)发表论文20余篇。是被业界广泛应用的中文语言技术平台LTP的主要研发者之一。2015年,获百度奖学金;2018年,获中文信息学会“优秀博士学位论文”提名奖。
崔一鸣
科大讯飞北京研究院副院长、资深级主管研究员。毕业于哈尔滨工业大学,获工学学士和硕士学位,并继续攻读博士学位。主要从事阅读理解、预训练模型等自然语言处理相关领域的核心技术研究工作,致力于推动中文机器阅读理解和中文预训练模型的研究与发展。曾多次获得机器翻译、机器阅读理解、自然语言理解评测冠军,其中包括机器阅读理解权威评测SQuAD、自然语言理解权威评测GLUE等。所研制的中文阅读理解及预训练模型开源项目被业界广泛应用,在GitHub累计获得1万以上星标,HuggingFace平台月均调用量达到100万次。发表学术论文30余篇(包括ACL、EMNLP、AAAI等高水平论文),申请发明专利20余项。担任EMNLP 2021和NLPCC 2021领域主席,担任NLP和AI领域顶级国际会议和国际ESI期刊审稿人职务。
目录 · · · · · ·
推荐语IV
前言V
数学符号IX
第1 章绪论1
1.1 自然语言处理的概念 2
1.2 自然语言处理的难点2
1.2.1 抽象性 2
1.2.2 组合性 2
1.2.3 歧义性 3
1.2.4 进化性3
1.2.5 非规范性3
1.2.6 主观性3
1.2.7 知识性3
1.2.8 难移植性4
1.3 自然语言处理任务体系.4
1.3.1 任务层级4
1.3.2 任务类别5
1.3.3 研究对象与层次6
1.4 自然语言处理技术发展历史7
第2 章自然语言处理基础11
2.1 文本的表示.12
2.1.1 词的独热表示13
2.1.2 词的分布式表示13
2.1.3 词嵌入表示19
2.1.4 文本的词袋表示19
2.2 自然语言处理任务20
2.2.1 语言模型20
2.2.2 自然语言处理基础任务23
2.2.3 自然语言处理应用任务31
2.3 基本问题35
2.3.1 文本分类问题35
2.3.2 结构预测问题36
2.3.3 序列到序列问题38
2.4 评价指标40
2.5 小结43
第3 章基础工具集与常用数据集45
3.1 NLTK 工具集46
3.1.1 常用语料库和词典资源46
3.1.2 常用自然语言处理工具集.49
3.2 LTP 工具集51
3.2.1 中文分词51
3.2.2 其他中文自然语言处理功能.52
3.3 PyTorch 基础52
3.3.1 张量的基本概念53
3.3.2 张量的基本运算54
3.3.3 自动微分57
3.3.4 调整张量形状58
3.3.5 广播机制59
3.3.6 索引与切片60
3.3.7 降维与升维60
3.4 大规模预训练数据61
3.4.1 维基百科数据62
3.4.2 原始数据的获取62
3.4.3 语料处理方法62
3.4.4 Common Crawl 数据66
3.5 更多数据集.66
3.6 小结68
第4 章自然语言处理中的神经网络基础69
4.1 多层感知器模型70
4.1.1 感知器70
4.1.2 线性回归71
4.1.3 Logistic 回归71
4.1.4 Softmax 回归72
4.1.5 多层感知器74
4.1.6 模型实现76
4.2 卷积神经网络78
4.2.1 模型结构78
4.2.2 模型实现80
4.3 循环神经网络83
4.3.1 模型结构83
4.3.2 长短时记忆网络85
4.3.3 模型实现87
4.3.4 基于循环神经网络的序列到序列模型88
4.4 注意力模型.89
4.4.1 注意力机制89
4.4.2 自注意力模型90
4.4.3 Transformer 91
4.4.4 基于Transformer 的序列到序列模型93
4.4.5 Transformer 模型的优缺点94
4.4.6 模型实现94
4.5 神经网络模型的训练96
4.5.1 损失函数96
4.5.2 梯度下降98
4.6 情感分类实战101
4.6.1 词表映射101
4.6.2 词向量层102
4.6.3 融入词向量层的多层感知器103
4.6.4 数据处理106
4.6.5 多层感知器模型的训练与测试108
4.6.6 基于卷积神经网络的情感分类109
4.6.7 基于循环神经网络的情感分类110
4.6.8 基于Transformer 的情感分类111
4.7 词性标注实战113
4.7.1 基于前馈神经网络的词性标注114
4.7.2 基于循环神经网络的词性标注114
4.7.3 基于Transformer 的词性标注116
4.8 小结116
第5 章静态词向量预训练模型119
5.1 神经网络语言模型120
5.1.1 预训练任务120
5.1.2 模型实现124
5.2 Word2vec 词向量130
5.2.1 概述130
5.2.2 负采样133
5.2.3 模型实现134
5.3 GloVe 词向量140
5.3.1 概述140
5.3.2 预训练任务140
5.3.3 参数估计140
5.3.4 模型实现141
5.4 评价与应用.143
5.4.1 词义相关性144
5.4.2 类比性146
5.4.3 应用147
5.5 小结148
第6 章动态词向量预训练模型151
6.1 词向量——从静态到动态152
6.2 基于语言模型的动态词向量预训练153
6.2.1 双向语言模型153
6.2.2 ELMo 词向量155
6.2.3 模型实现156
6.2.4 应用与评价169
6.3 小结171
第7 章预训练语言模型173
7.1 概述174
7.1.1 大数据174
7.1.2 大模型175
7.1.3 大算力175
7.2 GPT 177
7.2.1 无监督预训练178
7.2.2 有监督下游任务精调179
7.2.3 适配不同的下游任务180
7.3 BERT 182
7.3.1 整体结构182
7.3.2 输入表示183
7.3.3 基本预训练任务184
7.3.4 更多预训练任务190
7.3.5 模型对比194
7.4 预训练语言模型的应用194
7.4.1 概述194
7.4.2 单句文本分类195
7.4.3 句对文本分类198
7.4.4 阅读理解201
7.4.5 序列标注206
7.5 深入理解BERT .211
7.5.1 概述211
7.5.2 自注意力可视化分析212
7.5.3 探针实验213
7.6 小结.215
第8 章预训练语言模型进阶217
8.1 模型优化.218
8.1.1 XLNet 218
8.1.2 RoBERTa .223
8.1.3 ALBERT .227
8.1.4 ELECTRA 229
8.1.5 MacBERT 232
8.1.6 模型对比234
8.2 长文本处理.234
8.2.1 概述234
8.2.2 Transformer-XL 235
8.2.3 Reformer .238
8.2.4 Longformer 242
8.2.5 BigBird .243
8.2.6 模型对比244
8.3 模型蒸馏与压缩244
8.3.1 概述244
8.3.2 DistilBERT 246
8.3.3 TinyBERT 248
8.3.4 MobileBERT 250
8.3.5 TextBrewer 252
8.4 生成模型257
8.4.1 BART 257
8.4.2 UniLM 260
8.4.3 T5 .263
8.4.4 GPT-3 264
8.4.5 可控文本生成265
8.5 小结.267
第9 章多模态融合的预训练模型269
9.1 多语言融合.270
9.1.1 多语言BERT .270
9.1.2 跨语言预训练语言模型272
9.1.3 多语言预训练语言模型的应用273
9.2 多媒体融合.274
9.2.1 VideoBERT 274
9.2.2 VL-BERT 275
9.2.3 DALL·E 275
9.2.4 ALIGN 276
9.3 异构知识融合276
9.3.1 融入知识的预训练277
9.3.2 多任务学习282
9.4 更多模态的预训练模型285
9.5 小结.285
参考文献287
术语表297
· · · · · · (收起)
原文摘录 · · · · · ·
丛书信息
· · · · · ·
喜欢读"自然语言处理:基于预训练模型的方法"的人也喜欢的电子书 · · · · · ·
喜欢读"自然语言处理:基于预训练模型的方法"的人也喜欢 · · · · · ·
- 基于深度学习的自然语言处理 7.8
- 迁移学习导论 7.7
- 统计学习理论 8.8
- 概率图模型:原理与技术 7.5
- 统计学习理论的本质 8.9
- 动手学深度学习 9.3
- 图深度学习 7.9
- 项目管理修炼之道 8.3
- 机器学习方法 8.6
自然语言处理:基于预训练模型的方法的书评 · · · · · · ( 全部 0 条 )
论坛 · · · · · ·
在这本书的论坛里发言当前版本有售 · · · · · ·
以下书单推荐 · · · · · · ( 全部 )
- 计算语言学 NLP (汤圆先生)
- Books of Data Science, assemble! (Narcissus)
- 信息技术 (好学驿站)
- 书单|NLP (crazysheng)
- AI (qdsxinyee)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有125人想读,手里有一本闲着?
订阅关于自然语言处理:基于预训练模型的方法的评论:
feed: rss 2.0
11 有用 悟星小和尚、 2021-08-14 22:18:06
陆陆续续读了一段时间,今天大致读完,最大的收获就是了解了rnn到lstm再到transformer的一个转变过程吧,学习到了其中以前没有关注到的很多细节。书本前面介绍了nlp中的一些经典任务以及基础知识,代码比较详细。后面几章介绍了预训练模型,然后我只看得懂bert,elmo等一些经典预训练模型,后面的最新的基本只知道个原理,具体细节肯定还得看论文,如果没有读论文的话光看这本书讲肯定是不够的,这本... 陆陆续续读了一段时间,今天大致读完,最大的收获就是了解了rnn到lstm再到transformer的一个转变过程吧,学习到了其中以前没有关注到的很多细节。书本前面介绍了nlp中的一些经典任务以及基础知识,代码比较详细。后面几章介绍了预训练模型,然后我只看得懂bert,elmo等一些经典预训练模型,后面的最新的基本只知道个原理,具体细节肯定还得看论文,如果没有读论文的话光看这本书讲肯定是不够的,这本书只是提供了一个整体框架。总体来说,本书还不错😄 (展开)
0 有用 成子 2022-10-14 11:07:14 陕西
BERT预训练语言模型入门之书
0 有用 霍尔顿 2023-04-23 17:38:54 北京
适合有深度学习基础后,学习NLP核心概念,不适合用于入门。方法论背后的原因阐述地非常言简意赅,一针见血,让我这种业界人士对学术脉络的认识更加深刻了,确实是高级研究者才能写出来的书。教材导向,包括配套的代码以介绍概念为主,不是基于实操目的,比如没有基于高水平的真实案例、缺乏张亮维度的详细说明等。此外在实际部署中会遇到的诸多问题,本书也不涉及。
0 有用 儒豪 2022-05-31 04:05:09
一份slides就能讲完的非常入门的知识。这种东西就不要浪费纸张了。
1 有用 LYFY_7 2022-10-24 10:34:37 广东
还可以的。
0 有用 Sai 2023-06-09 22:56:07 新疆
不怎么样,自然语言学习怎么没有像样的书,苦恼,看得越多越懵逼
0 有用 霍尔顿 2023-04-23 17:38:54 北京
适合有深度学习基础后,学习NLP核心概念,不适合用于入门。方法论背后的原因阐述地非常言简意赅,一针见血,让我这种业界人士对学术脉络的认识更加深刻了,确实是高级研究者才能写出来的书。教材导向,包括配套的代码以介绍概念为主,不是基于实操目的,比如没有基于高水平的真实案例、缺乏张亮维度的详细说明等。此外在实际部署中会遇到的诸多问题,本书也不涉及。
0 有用 漫游 2023-03-29 08:12:21 广东
D1图书馆
0 有用 Gatsby&祥林嫂 2023-03-22 19:48:37 北京
这个车老师有个讲话只讲一半的毛病,知识点不够细致、缺乏公式推导
2 有用 亲爱的猥琐猪 2023-03-06 16:50:47 上海
这本书最大的意义是纪念吧,因为知识很快又会被迭代更新的。书中主要截取从RNN始自MacBERT止(第二、三代训练范式)的NLP代表技术,可GPT-3+系列为代表的pretrain+prompt+predict已渐有胜过pretrain+finetune之势。读者定位也不上不下,对初学者而言,理论细节略敷衍,比如从seq2seq到传统注意力到自注意力再到transformer,唯一给的代码是直接调t... 这本书最大的意义是纪念吧,因为知识很快又会被迭代更新的。书中主要截取从RNN始自MacBERT止(第二、三代训练范式)的NLP代表技术,可GPT-3+系列为代表的pretrain+prompt+predict已渐有胜过pretrain+finetune之势。读者定位也不上不下,对初学者而言,理论细节略敷衍,比如从seq2seq到传统注意力到自注意力再到transformer,唯一给的代码是直接调torch.nn库的Transformer方法,明明多点Numpy手撕会更清楚,公式顺序也乱。另外是国产书通病,从不给参数标维度,其实每一步张量的行列数一给,许多概念非常简单的;实战示例则永远是Toy【英文】数据集,为什么不给个基本信息表搭配样本数据结构呢?我理解这本书主要是个走马观花应急速查册。 (展开)