内容简介 · · · · · ·
本书是“鸢尾花数学大系:从加减乘除到机器学习”丛书的最后一册,前六本解决了编程、可视化、数学、 数据方面的诸多问题,而本书将开启机器学习经典算法的学习之旅。
本书设置了 24 个话题,对应四大类机器学习经典算法(回归、分类、降维、聚类),覆盖算法包括: 回归分析、多元线性回归、非线性回归、正则化回归、贝叶斯回归、高斯过程、k 最近邻分类、朴素贝叶 斯分类、高斯判别分析、支持向量机、核技巧、决策树、主成分分析、截断奇异值分解、主成分分析进阶、 主成分分析与回归、核主成分分析、典型相关分析、 k 均值聚类、高斯混合模型、最大期望算法、层次聚类、 密度聚类、谱聚类。
本书选取算法模型的目标是覆盖 Scikit-Learn 库的常用机器学习算法函数,让读者充分理解算法理论, 又能联系实际应用。因此,在学习本书时,特别希望调用 Scikit-Learn ...
本书是“鸢尾花数学大系:从加减乘除到机器学习”丛书的最后一册,前六本解决了编程、可视化、数学、 数据方面的诸多问题,而本书将开启机器学习经典算法的学习之旅。
本书设置了 24 个话题,对应四大类机器学习经典算法(回归、分类、降维、聚类),覆盖算法包括: 回归分析、多元线性回归、非线性回归、正则化回归、贝叶斯回归、高斯过程、k 最近邻分类、朴素贝叶 斯分类、高斯判别分析、支持向量机、核技巧、决策树、主成分分析、截断奇异值分解、主成分分析进阶、 主成分分析与回归、核主成分分析、典型相关分析、 k 均值聚类、高斯混合模型、最大期望算法、层次聚类、 密度聚类、谱聚类。
本书选取算法模型的目标是覆盖 Scikit-Learn 库的常用机器学习算法函数,让读者充分理解算法理论, 又能联系实际应用。因此,在学习本书时,特别希望调用 Scikit-Learn 各种函数来解决问题之余,更要理解 算法背后的数学工具。因此,本书给出适度的数学推导以及扩展阅读。
本书提供代码示例和视频讲解,“鸢尾花书”强调在 JupyterLab 自主探究学习才能提高编程技能。本 书配套微课也主要以配套 Jupyter Notebooks 为核心,希望读者边看视频,边动手练习。
本书读者群包括所有试图用机器学习解决问题的朋友,尤其适用于机器学习入门、初级程序员转型、 高级数据分析师、机器学习进阶。
机器学习的创作者
· · · · · ·
-
姜伟生 作者
作者简介 · · · · · ·
姜伟生 博士 FRM。
勤奋的小镇做题家,热爱知识可视化和开源分享。自2022年8月开始,在GitHub上开源“鸢尾花书”学习资源,截至2024年8月,已经分享6000多页PDF、6000多幅矢量图、约3000个代码文件,全球读者数以万计,GitHub全球排名TOP100。
目录 · · · · · ·
第 1章 机器学习 ???????????????????????????????????????????????????? 7
1.1 什么是机器学习? 8
1.2 回归:找到自变量与因变量关系 10
1.3 分类:针对有标签数据 14
· · · · · · (更多)
第 1章 机器学习 ???????????????????????????????????????????????????? 7
1.1 什么是机器学习? 8
1.2 回归:找到自变量与因变量关系 10
1.3 分类:针对有标签数据 14
1.4 降维:降低数据维度,提取主要特征 16
1.5 聚类:针对无标签数据 20
1.6 机器学习流程 21
1.7 下一步学什么? 24
第 2章 回归分析 ???????????????????????????????????????????????? 27
2.1 线性回归:一个表格、一条直线 29
2.2 方差分析 (ANOVA) 32
2.3 总离差平方和 (SST) 35
2.4 回归平方和 (SSR) 37
2.5 残差平方和 (SSE) 38
2.6 几何视角:勾股定理 40
2.7 拟合优度:评价拟合程度 42
2.8 F 检验:模型参数不全为 0 44
2.9 t 检验:某个回归系数是否为 0 46
2.10 置信区间:因变量均值的区间 50
2.11 预测区间:因变量特定值的区间 51
2.12 对数似然函数:用在最大似然估计 (MLE) 51
2.13 信息准则:选择模型的标准 52
2.14 残差分析:假设残差服从均值为 0 的正态分布 53
2.15 自相关检测:Durbin-Watson 54
2.16 条件数:多重共线性 55
第 3章 多元线性回归 57
3.1 多元线性回归 58
3.2 优化问题:OLS 60
3.3 几何解释:投影 63
3.4 二元线性回归实例 65
3.5 多元线性回归实例 68
3.6 正交关系 72
3.7 三个平方和 75
3.8 t 检验 77
3.9 多重共线性 78
3.10 条件概率视角看多元线性回归 80
第4章 非线性回归 85
4.1 线性回归 86
4.2 线性对数模型 88
4.3 非线性回归 90
4.4 多项式回归 92
4.5 逻辑回归 97
4.6 逻辑函数完成分类问题 102
第 5章 正则化回归 109
5.1 正则化:抑制过拟合 110
5.2 岭回归 113
5.3 几何角度看岭回归 119
5.4 套索回归 121
5.5 几何角度看套索回归 123
5.6 弹性网络回归 127
第 6章 贝叶斯回归 133
6.1 回顾贝叶斯推断 134
6.2 贝叶斯回归:无信息先验 137
6.3 使用 PyMC 完成贝叶斯回归 137
6.4 贝叶斯视角理解岭正则化 142
6.5 贝叶斯视角理解套索正则化 144
第 7章 高斯过程 149
7.1 高斯过程原理 150
7.2 解决回归问题 156
7.3 解决分类问题 157
第8章 k最近邻分类 ?????????????????????? 163
8.1 k 最近邻分类原理:近朱者赤,近墨者黑 164
8.2 二分类:非红,即蓝 166
8.3 三分类:非红,要么蓝,要么灰 168
8.4 近邻数量 k 影响投票结果 170
8.5 投票权重:越近,影响力越高 173
8.6 最近质心分类:分类边界为中垂线 174
8.7 k-NN 回归:非参数回归 177
第 9章 朴素贝叶斯分类 181
9.1 重逢贝叶斯 182
9.2 朴素贝叶斯的“朴素 ”之处 186
9.3 高斯,你好 198
第 10章 高斯判别分析 213
10.1 又见高斯 214
10.2 六类协方差矩阵 217
10.3 决策边界解析解 219
10.4 第一类 221
10.5 第二类 224
10.6 第三类 226
10.7 第四类 227
10.8 第五类 228
10.9 第六类 229
10.10 线性和二次判别分析 230
第 11章 支持向量机 ???????????????????????????????????? 235
11.1 支持向量机 236
11.2 硬间隔:处理线性可分 240
11.3 构造优化问题 245
11.4 支持向量机处理二分类问题 248
11.5 软间隔:处理线性不可分 252
第 12章 核技巧 ?????????????????????????????????????????????? 257
12.1 映射函数:实现升维 258
12.2 核技巧 SVM 优化问题 261
12.3 线性核:最基本的核函数 266
12.4 多项式核 268
12.5 二次核:二次曲面 271
12.6 三次核:三次曲面 273
12.7 高斯核:基于径向基函数 275
12.8 Sigmoid 核 280
第 13章 决策树 ???????????????????????????????????????????????? 285
13.1 决策树:可以分类,也可以回归 286
13.2 信息熵:不确定性度量 288
13.3 信息增益:通过划分,提高确定度 290
13.4 基尼指数:指数越大,不确定性越高 292
13.5 最大叶节点:影响决策边界 293
13.6 最大深度:控制树形大小 297
第 14章 主成分分析 ?????????????????????????????????????????? 303
14.1 主成分分析 304
14.2 原始数据 307
14.3 特征值分解 310
14.4 正交空间 312
14.5 投影结果 316
14.6 还原 320
14.7 双标图 323
14.8 陡坡图 327
第 15章 截断奇异值分解 ??????????????????????????????????????????? 331
15.1 几何视角看奇异值分解 332
15.2 四种 SVD 分解 334
15.3 几何视角看截断型 SVD 336
15.4 优化视角看截断型 SVD 339
15.5 分析鸢尾花照片 343
第 16章 主成分分析进阶 ??????????????????????????????? 351
16.1 从“六条技术路线 ”说起 352
16.2 协方差矩阵:中心化数据 355
16.3 格拉姆矩阵:原始数据 363
16.4 相关性系数矩阵:标准化数据 368
第 17章 主成分分析与回归 ?????????????????????????????????????? 375
17.1 正交回归 376
17.2 一元正交回归 378
17.3 几何角度看正交回归 382
17.4 二元正交回归 385
17.5 多元正交回归 389
17.6 主元回归 393
17.7 偏最小二乘回归 405
第 18章 核主成分分析 413
18.1 核主成分分析 414
18.2 从主成分分析说起 415
18.3 用核技巧完成核主成分分析 418
第 19章 典型相关分析 427
19.1 典型相关分析原理 428
19.2 从一个协方差矩阵考虑 432
19.3 以鸢尾花数据为例 434
第 20章 K均值聚类 ????????????????????????????????????????? 443
20.1 K 均值聚类 444
20.2 优化问题 445
20.3 迭代过程 448
20.4 肘部法则:选定聚类簇值 450
20.5 轮廓图:选定聚类簇值 452
20.6 沃罗诺伊图 454
第 21章 高斯混合模型 457
21.1 高斯混合模型 458
21.2 四类协方差矩阵 464
21.3 分量数量 469
21.4 硬聚类和软聚类 471
第 22章 最大期望算法 475
22.1 最大期望 476
22.2 E 步:最大化期望 477
22.3 M 步:最大化似然概率 480
22.4 迭代过程 482
22.5 多元 GMM 迭代 486
第 23章 层次聚类 495
23.1 层次聚类 496
23.2 树形图 497
23.3 簇间距离 503
23.4 亲近度层次聚类 509
第 24章 密度聚类 511
24.1 DBSCAN 聚类 512
24.2 调节参数 515
第 25章 谱聚类 519
25.1 谱聚类 520
25.2 距离矩阵 521
25.3 相似度 524
25.4 无向图 525
25.5 拉普拉斯矩阵 527
25.6 特征值分解 530
参考文献 ????????????????????????????????????????????????????? 535
· · · · · · (收起)
原文摘录 · · · · · · ( 全部 )
-
姜伟生 博士FPM勤奋的小镇做题家,热爱知识可视化和开源分享。自2022年8月开始,在GitHub上开源“鸢尾花书”学习资源,截至2024年7月,已经分享6000多页PDF、6000多幅矢量图、约1000个代码文件,全球读者数以万计,GitHub全球排名TOP100。 (查看原文) —— 引自章节:绪论 ??????????????????????????? -
微课视频 本书配套微课视频均发布在B站一生姜DrGinger。。https://space.bilibili.com/513194466 (查看原文) —— 引自章节:绪论 ???????????????????????????
> 全部原文摘录
丛书信息
· · · · · ·
喜欢读"机器学习"的人也喜欢 · · · · · ·
-
- 数据有道 9.5
-
- 统计至简 8.7
-
- 可视之美 8.5
-
- 数学要素 9.1
-
- 矩阵力量 9.3
-
- 编程不难 9.6
-
- 机器学习与深度学习算法基础 9.5
-
- 大话计算机科学 9.1
-
- 机器学习 (原书第2版) 9.8
机器学习的书评 · · · · · · ( 全部 9 条 )
最后一个书,老玩家终于补完书评了
图像型学习者的藏宝图
鸢尾花系列最硬核的一册
> 更多书评 9篇
以下书单推荐 · · · · · · ( 全部 )
- 数据分析 (昵称不能为空)
- 计算机方向国人写的高分书 (damengxinfa02)
- 机器学习入门 (S.S.Serena)
- 书单|2026读书计划 (西亚)
- 书单|技术60本 (西亚)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有382人想读,手里有一本闲着?
订阅关于机器学习的评论:
feed: rss 2.0

3 有用 怕熟人看见 2024-10-30 09:18:20 北京
鸢尾花最终章,正在学习开源版,痛快
6 有用 佩索阿的帽子 2024-12-31 17:25:27 北京
github白嫖 必须五星
2 有用 铲屎大将军 2025-01-01 09:41:20 北京
今年读的第1本。是这个系列的最后一本,把机器学习里大部分核心的算法图形化的串讲了一遍,很适合初学者先对这些算法有一个具象的认知。可惜现在的我已经不做数据分析or策略了,所以只是囫囵吞枣一般的读完。不过这个系列依然给了我很多启发,比如自己写书的时候每个部分和章节的开头,都会用脑图梳理一下结构。翻看的时候曾经那个傻啃paper的自己,和那个上班摸鱼写书的自己,都跃然于脑海中了,哈哈哈。
4 有用 刘富贵 2024-08-14 07:08:17 上海
先说自己的工作,在金融机构总部数字化转型岗位,借用古文翻译“信达雅”的要求,我们的输出展示也讲究美观。最近重新拿起课本,从零开始学可视化。 然后,天赐神器,鸢尾花系列图书来了! 我是传统意义上的小镇做题家,从初中就受益于数学教育,高考、考研甚至求职都品尝到了甜头。离开学校近15年,有时也感觉工作中遇到新问题的力不从心,想重新拾起工具书。 数学是一个成体系的学科,传统的教育因为不同作者不同风格,往往... 先说自己的工作,在金融机构总部数字化转型岗位,借用古文翻译“信达雅”的要求,我们的输出展示也讲究美观。最近重新拿起课本,从零开始学可视化。 然后,天赐神器,鸢尾花系列图书来了! 我是传统意义上的小镇做题家,从初中就受益于数学教育,高考、考研甚至求职都品尝到了甜头。离开学校近15年,有时也感觉工作中遇到新问题的力不从心,想重新拾起工具书。 数学是一个成体系的学科,传统的教育因为不同作者不同风格,往往很割裂。感谢姜博士的这一套数学教材,让我重新有了如饥似渴的求知欲。 姜博士兼具了国内外的教育经历,博采众长,可以看得出作者十分用心。精美的装帧,带给我身心的愉悦是真实的,《机器学习》还用了大幅彩色导图。这套书毫无疑问是值得仔细揣摩的,也期待最后一颗龙珠《数据有道》著作早日与读者见面! (展开)
3 有用 天啊 2024-10-31 21:48:42 河北
本书书系最后一块拼图,machine learning,结合整本书的配套视频,开源资料学习起来很有助益。