出版社: 人民邮电出版社
副标题: 卷2:经典应用
出版年: 2024-6
页数: 330
装帧: 全彩平装
丛书: 异步图书深度学习系列
ISBN: 9787115608956
内容简介 · · · · · ·
当前,深度学习模型的规模越来越大,例如谷歌的 BERT模型、OpenAl的GPT系列模型等;深度学习算法在不断优化,例如在计算机视觉领域,图像分类、目标检测等任务应用深度学习算法后,准确率得到了显著提升;深度学习的应用领域在不断拓展,除了在自然语言处理、计算机视觉,语音识别等领域,深度学习在医疗、金融等领域也得到了广泛应用。因此,从事深度学习相关工作需要不断学习和巩固基础知识,提升业务实践能力,持续关注新技术和新方法,并不断拓展知识面。
本书包含深度学习的经典应用场景,从算法原理、公式推导、算法源码、实验结果等方面对各场景的算法进行分析和介绍,重点讨论深度学习算法在目标检测与分割、场景文字检测与识别等方向的发展历程以及各算法的优缺点,并分析各算法是如何针对先前算法的若干问题提出解决方案的。具体内容有:
***深度学习在目标检测与分割领域的前沿算法,包...
当前,深度学习模型的规模越来越大,例如谷歌的 BERT模型、OpenAl的GPT系列模型等;深度学习算法在不断优化,例如在计算机视觉领域,图像分类、目标检测等任务应用深度学习算法后,准确率得到了显著提升;深度学习的应用领域在不断拓展,除了在自然语言处理、计算机视觉,语音识别等领域,深度学习在医疗、金融等领域也得到了广泛应用。因此,从事深度学习相关工作需要不断学习和巩固基础知识,提升业务实践能力,持续关注新技术和新方法,并不断拓展知识面。
本书包含深度学习的经典应用场景,从算法原理、公式推导、算法源码、实验结果等方面对各场景的算法进行分析和介绍,重点讨论深度学习算法在目标检测与分割、场景文字检测与识别等方向的发展历程以及各算法的优缺点,并分析各算法是如何针对先前算法的若干问题提出解决方案的。具体内容有:
***深度学习在目标检测与分割领域的前沿算法,包括双阶段检测、单阶段检测、无锚点检测、特征融合、损失函数、语义分割 6个方向的算法;
***深度学习在场景文字检测与识别领域的重要突破,包括场景文字检测、场景文字识别这两个阶段的算法;
***深度学习的其他应用领域的算法,包括图像翻译、图神经网络、二维结构识别、人像抠图图像预训练、多模态预训练 5个方向的算法;
***算法中的数学原理,包括双线性插值、匈牙利算法、Shift-and-Stitch、德劳内三角化、图像梯度、仿射变换矩阵等。
作者简介 · · · · · ·
刘岩,曾先后就读于重庆大学软件工程专业和澳门大学计算机科学专业,分别获得学士和硕士学位,期间发表多篇论文。目前就职于京东零售技术研发与数据中心,主要负责电商场景下的基础算法研究以及内容风控业务,包括风险舆情监控和挖掘、风险电商内容的发现和治理等。擅长前沿人工智能算法的原理分析和落地,先后参与并负责了深度学习多个算法在业务上的落地,例如 OCR、公式识别、手势识别、视频抠像、文本分类,预训练词向量模型、语言识别、图神经网络等。知乎账号:大师兄。
目录 · · · · · ·
第 1 章 双阶段检测....................3
1.1 R-CNN ................................................4
1.1.1 R-CNN 检测流程 ...........................5
1.1.2 候选区域提取 .................................6
1.1.3 预训练及微调 .................................7
· · · · · · (更多)
第 1 章 双阶段检测....................3
1.1 R-CNN ................................................4
1.1.1 R-CNN 检测流程 ...........................5
1.1.2 候选区域提取 .................................6
1.1.3 预训练及微调 .................................7
1.1.4 训练数据准备 .................................7
1.1.5 NMS ...............................................8
1.1.6 小结 ................................................9
1.2 SPP-Net .............................................9
1.2.1 空间金字塔池化 ............................10
1.2.2 SPP-Net 的推理流程 ...................11
1.2.3 小结 ..............................................13
1.3 Fast R-CNN .....................................13
1.3.1 Fast R-CNN 算法介绍 .................13
1.3.2 数据准备 ......................................14
1.3.3 Fast R-CNN 网络结构 .................15
1.3.4 多任务损失函数 ............................16
1.3.5 Fast R-CNN 的训练细节..............17
1.3.6 Fast R-CNN 的推理流程..............18
1.3.7 小结 ..............................................18
1.4 Faster R-CNN ..................................18
1.4.1 区域候选网络 ...............................18
1.4.2 Faster R-CNN 的训练 ..................22
1.4.3 小结 ..............................................22
1.5 R-FCN .............................................23
1.5.1 提出动机 ......................................23
1.5.2 R-FCN 的网络 .............................24
1.5.3 R-FCN 结果可视化 ......................26
1.5.4 小结 ..............................................27
1.6 Mask R-CNN ...................................27
1.6.1 Mask R-CNN 的动机 ...................28
1.6.2 Mask R-CNN 详解 .......................28
1.6.3 小结 ..............................................31
1.7 MaskX R-CNN ...................................31
1.7.1 权值迁移函数 ............................32
1.7.2 MaskX R-CNN 的训练 ..................32
1.7.3 小结 ..............................................33
1.8 DCNv1 和 DCNv2 .............................33
1.8.1 DCNv1 .........................................33
1.8.2 DCNv2 .........................................36
1.8.3 小结 ..............................................39
第 2 章 单阶段检测..................40
2.1 YOLOv1 ............................................41
2.1.1 YOLOv1 的网络结构 ....................42
2.1.2 损失函数 ......................................44
2.1.3 小结 ..............................................46
2.2 SSD 和 DSSD ...................................47
2.2.1 SSD ..............................................48
2.2.2 DSSD ...........................................51
2.2.3 小结 ..............................................53
2.3 YOLOv2 ............................................54
2.3.1 YOLOv2:更快,更高 ..................54
2.3.2 YOLO9000:更强 ........................59
2.3.3 小结 ..............................................61
2.4 YOLOv3 ............................................61
2.4.1 多标签任务 ...................................62
2.4.2 骨干网络 ......................................62
2.4.3 多尺度特征 ...................................63
2.4.4 锚点聚类 ......................................63
2.4.5 YOLOv3 一些失败的尝试 .............64
2.4.6 小结 ..............................................64
2.5 YOLOv4 ............................................65
2.5.1 背景介绍 ......................................65
2.5.2 数据 ..............................................65
2.5.3 模型 ..............................................69
2.5.4 后处理 ..........................................78
2.5.5 YOLOv4 改进介绍 ........................79
2.5.6 小结 ..............................................82
第 3 章 无锚点检测..................83
3.1 DenseBox .........................................84
3.1.1 DenseBox 的网络结构 .................84
3.1.2 多任务模型 ...................................85
3.1.3 训练数据 ......................................86
3.1.4 结合关键点检测 ............................87
3.1.5 测试 ..............................................88
3.1.6 小结 ..............................................88
3.2 CornerNet .........................................89
3.2.1 背景 ..............................................89
3.2.2 CornerNet 详解 ............................90
3.2.3 小结 ..............................................95
3.3 CornerNet-Lite ..................................96
3.3.1 CornerNet-Saccade ...................96
3.3.2 CornerNet-Squeeze ....................99
3.3.3 小结 .............................................99
3.4 CenterNet .........................................99
3.4.1 网络结构 ....................................100
3.4.2 数据准备 ....................................102
3.4.3 损失函数 ....................................103
3.4.4 推理过程 ....................................104
3.4.5 小结 ............................................104
3.5 FCOS ..............................................104
3.5.1 算法背景 ....................................105
3.5.2 FCOS 的网络结构 ......................105
3.5.3 多尺度预测 .................................107
3.5.4 测试 ............................................107
3.5.5 小结 ............................................107
3.6 DETR ..............................................107
3.6.1 网络结构 ....................................108
3.6.2 损失函数 ....................................109
3.6.3 小结 ............................................111
第 4 章 特征融合....................112
4.1 FPN .................................................113
4.1.1 CNN 中的常见骨干网络 .............113
4.1.2 FPN 的网络结构 .........................114
4.1.3 FPN 的应用 ................................116
4.1.4 小结 ............................................116
4.2 PANet ..............................................117
4.2.1 PANet .........................................117
4.2.2 小结 ............................................120
4.3 NAS-FPN ........................................121
4.3.1 NAS-FPN 算法详解 ...................121
4.3.2 NAS-FPN Lite ............................125
4.3.3 小结 ............................................125
4.4 Effi cientDet ......................................125
4.4.1 BiFPN .........................................126
4.4.2 EfficientDet 详解 ........................127
4.4.3 小结 ............................................128
第 5 章 损失函数 ................... 129
5.1 Focal Loss ......................................129
5.1.1 Focal Loss 介绍 .........................130
5.1.2 RetinaNet...................................132
5.1.3 小结............................................132
5.2 IoU 损失 ..........................................133
5.2.1 背景知识 ....................................133
5.2.2 IoU 损失.....................................133
5.2.3 UnitBox 网络结构.......................135
5.2.4 小结............................................136
5.3 GIoU 损失 .......................................136
5.3.1 算法背景 ....................................136
5.3.2 GIoU 损失详解...........................137
5.3.3 小结............................................139
5.4 DIoU 损失和 CIoU 损失 ...................140
5.4.1 背景............................................140
5.4.2 DIoU 损失...................................141
5.4.3 CIoU 损失...................................142
5.4.4 小结............................................142
5.5 Focal-EIoU 损失 ..............................143
5.5.1 EIoU 损失...................................143
5.5.2 Focal L1 损失.............................144
5.5.3 Focal-EIoU 损失........................146
5.5.4 小结............................................146
第 6 章 语义分割 ................... 147
6.1 FCN 和 SegNet ...............................148
6.1.1 背景知识 ....................................148
6.1.2 FCN 详解....................................149
6.1.3 SegNet 详解...............................150
6.1.4 分割指标 ....................................151
6.1.5 小结............................................152
6.2 U-Net ..............................................152
6.2.1 U-Net 详解................................153
6.2.2 数据扩充 ....................................155
6.2.3 小结............................................155
6.3 V-Net ...............................................156
6.3.1 网络结构 ....................................156
6.3.2 Dice 损失 ...................................160
6.3.3 小结............................................161
6.4 DeepLab 系列 .................................161
6.4.1 DeepLab v1...............................161
6.4.2 DeepLab v2...............................164
6.4.3 DeepLab v3...............................165
6.4.4 DeepLab v3+.............................167
6.4.5 小结............................................170
第二篇 场景文字检测与识别
第 7 章 场景文字检测............. 173
7.1 DeepText .........................................173
7.1.1 RPN 回顾....................................174
7.1.2 DeepText 详解...........................175
7.1.3 小结............................................175
7.2 CTPN ..............................................176
7.2.1 算法流程 ....................................176
7.2.2 数据准备 ....................................177
7.2.3 CTPN 的锚点机制 ......................177
7.2.4 CTPN 中的 RNN.........................178
7.2.5 边界微调 ....................................178
7.2.6 CTPN 的损失函数 ......................179
7.2.7 小结............................................179
7.3 RRPN ..............................................179
7.3.1 RRPN 详解.................................180
7.3.2 位置精校 ....................................183
7.3.3 小结............................................184
7.4 HED ................................................185
7.4.1 HED 的骨干网络 ........................186
7.4.2 整体嵌套网络 .............................186
7.4.3 HED 的损失函数 ........................187
7.4.4 小结 ............................................188
7.5 HMCP .............................................188
7.5.1 HMCP 的标签值 .........................189
7.5.2 HMCP 的骨干网络 .....................190
7.5.3 训练 ............................................190
7.5.4 检测 ............................................191
7.5.5 小结 ............................................193
7.6 EAST ..............................................193
7.6.1 网络结构 ....................................193
7.6.2 EAST 的标签生成 .......................194
7.6.3 EAST 的损失函数 .......................196
7.6.4 局部感知 NMS ............................196
7.6.5 Advanced-EAST .......................197
7.6.6 小结 ............................................198
7.7 PixelLink .........................................198
7.7.1 骨干网络 ....................................199
7.7.2 PixelLink 的标签 .........................199
7.7.3 PixelLink 的损失函数 ..................200
7.7.4 后处理 ........................................201
7.7.5 小结 ............................................201
第 8 章 场景文字识别.............202
8.1 STN .................................................202
8.1.1 空间变形模块 .............................203
8.1.2 STN ............................................205
8.1.3 STN 的应用场景 .........................205
8.1.4 小结 ............................................207
8.2 RARE ..............................................207
8.2.1 基于 TPS 的 STN ........................208
8.2.2 序列识别网络 .............................210
8.2.3 训练 ............................................212
8.2.4 基于字典的测试 ..........................212
8.2.5 小结 ............................................212
8.3 Bi-STET ..........................................212
8.3.1 残差网络 ....................................213
8.3.2 编码层 ........................................213
8.3.3 解码层 ........................................214
8.3.4 小结 ............................................214
8.4 CTC ................................................214
8.4.1 算法详解 ....................................215
8.4.2 小结 ............................................219
第三篇 其他算法与应用
第 9 章 图像翻译................... 223
9.1 GAN ................................................223
9.1.1 逻辑基础 ....................................224
9.1.2 GAN 的训练 ...............................224
9.1.3 GAN 的损失函数 ........................225
9.1.4 理论证明 ....................................226
9.1.5 小结 ............................................230
9.2 Pix2Pix ............................................230
9.2.1 背景知识 ....................................231
9.2.2 Pix2Pix 解析 ...............................232
9.2.3 小结 ............................................234
9.3 Pix2PixHD .......................................235
9.3.1 网络结构 ....................................235
9.3.2 输入数据 ....................................240
9.3.3 损失函数 ....................................241
9.3.4 图像生成 ....................................241
9.3.5 小结 ............................................242
9.4 图像风格迁移 ..................................242
9.4.1 算法概览 ....................................243
9.4.2 内容表示 ....................................244
9.4.3 风格表示 ....................................245
9.4.4 风格迁移 ....................................246
9.4.5 小结............................................247
第 10 章 图神经网络...........248
10.1 GraphSAGE ..................................249
10.1.1 背景知识 ..................................249
10.1.2 算法详解 ..................................249
10.1.3 小结..........................................254
10.2 GAT ...............................................254
10.2.1 GAT 详解 .................................254
10.2.2 GAT 的推理..............................257
10.2.3 GAT 的属性..............................257
10.2.4 小结..........................................258
10.3 HAN ..............................................258
10.3.1 基本概念 ..................................258
10.3.2 HAN 详解.................................259
10.3.3 小结..........................................261
第 11 章 二维结构识别........ 262
11.1 Show and Tell ................................262
11.1.1 网络结构 ..................................263
11.1.2 解码..........................................264
11.1.3 小结..........................................264
11.2 Show Attend and Tell .....................264
11.2.1 整体框架 ..................................265
11.2.2 小结..........................................268
11.3 数学公式识别.................................268
11.3.1 基础介绍 ..................................269
11.3.2 公式识别模型详解....................272
11.3.3 小结..........................................277
第 12 章 人像抠图..............278
12.1 Background Matting ......................278
12.1.1 输入..........................................279
12.1.2 生成模型 ..................................280
12.1.3 判别模型 ..................................280
12.1.4 模型训练 ..................................281
12.1.5 模型推理 ..................................282
12.1.6 小结..........................................282
12.2 Background Matting v2 .................283
12.2.1 问题定义 ..................................283
12.2.2 网络结构 ..................................284
12.2.3 训练..........................................286
12.2.4 小结..........................................286
第 13 章 图像预训练...........287
13.1 MAE ..............................................287
13.1.1 算法动机 ..................................287
13.1.2 掩码机制 ..................................288
13.1.3 模型介绍 ..................................289
13.1.4 小结..........................................291
13.2 BEiT v1 .........................................291
13.2.1 背景介绍 ..................................292
13.2.2 BEiT v1 全览.............................292
13.2.3 BEiT v1 的模型结构..................293
13.2.4 掩码图像模型 ...........................294
13.2.5 BEiT v1 的损失函数..................294
13.2.6 小结..........................................295
13.3 BEiT v2 .........................................295
13.3.1 背景介绍 ..................................295
13.3.2 BEiT v2 概述.............................296
13.3.3 矢量量化 - 知识蒸馏................296
13.3.4 BEiT v2 预训练.........................297
13.3.5 小结..........................................298
第 14 章 多模态预训练.......299
14.1 ViLBERT .......................................299
14.1.1 模型结构 ..................................300
14.1.2 预训练任务 ...............................301
14.1.3 模型微调 ..................................302
14.1.4 小结 ..........................................303
14.2 CLIP ..............................................304
14.2.1 数据收集 ..................................304
14.2.2 学习目标:对比学习(Contrastive
Learning)预训练 ...................304
14.2.3 图像编码器 ...............................305
14.2.4 文本编码器 ...............................306
14.2.5 CLIP 用于图像识别 ..................306
14.2.6 模型效果 ..................................306
14.2.7 小结 ..........................................307
14.3 DALL-E .........................................307
14.3.1 背景知识:变分自编码器 .........308
14.3.2 阶段一:离散变分自编码器......309
14.3.3 阶段二:先验分布学习 .............310
14.3.4 图像生成 ..................................312
14.3.5 混合精度训练 ...........................312
14.3.6 分布式运算 ...............................313
14.3.7 小结 ..........................................313
14.4 VLMo ............................................314
14.4.1 算法动机 ..................................314
14.4.2 MoME Transformer ..................314
14.4.3 VLMo 预训练 ............................315
14.4.4 小结 ..........................................318
14.5 BEiT v3 .........................................318
14.5.1 背景:大融合 ...........................319
14.5.2 BEiT v3 详解.............................320
14.5.3 小结 ..........................................322
附录 A 双线性插值...............323
附录 B 匈牙利算法...............324
附录 C Shift-and-Stitch....325
附录 D 德劳内三角化............328
附录 E 图像梯度...................329
附录 F 仿射变换矩阵.............330
· · · · · · (收起)
丛书信息
· · · · · ·
深度学习高手笔记 卷2:经典应用的书评 · · · · · · ( 全部 2 条 )
人工智能经典应用中的算法详解
深度学习是AI发展热点,这本书可以看到清晰的算法演进脉络
> 更多书评 2篇
论坛 · · · · · ·
在这本书的论坛里发言以下书单推荐 · · · · · · ( 全部 )
- 计算机方向国人写的高分书 (damengxinfa02)
- 书单|中文AI书籍 (Belinha Relva)
- 计算机 (小咪)
- 书单|AI 进阶 (solution)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有23人想读,手里有一本闲着?
订阅关于深度学习高手笔记 卷2:经典应用的评论:
feed: rss 2.0
0 有用 vito 2025-02-01 20:32:47 上海
第二本笔记主要介绍了目标检测与分割、场景文字检测与识别、预训练模型等算法与应用。这一本的不足是复现代码的比重少,偏学术理论。对于我个人而言,要追赶前沿领域的知识,任重道远啊。 可以订阅大师兄在知乎上的免费专栏,还在继续保持更新,解读各种前沿的模型,追加了好多新的内容,可以当作卷3 来阅读,保持不断地学习,大大的好评!
0 有用 Ian 2024-09-24 13:44:12 北京
学习中
0 有用 树在环球旅行 2024-06-06 09:09:27 北京
深度学习