作者:
[美] Wes McKinney
出版社: 机械工业出版社
原作名: Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter
译者: 陈松
出版年: 2023-10
页数: 502
定价: 149.00元
装帧: 平装
ISBN: 9787111726722
出版社: 机械工业出版社
原作名: Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter
译者: 陈松
出版年: 2023-10
页数: 502
定价: 149.00元
装帧: 平装
ISBN: 9787111726722
内容简介 · · · · · ·
本书第1版出版于2012年,彼时基于 Python 的开源数据分析库(例如 pandas)仍然是一个发展迅速的新事物,本书也成为该领域排名No1的经典畅销书,前两版中文版累计销售近30万册。
第3版针对 Python3.10 和 pandas1.4 进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的 pandas、NumPy、IPython 和 Jupyter。
本书作者 Wes McKinney 是 Python pandas 项目的创始人。本书对 Python 数据科学工具的介绍既贴近实战又内容新颖,非常适合刚开始学习 Python 的数据分析师或刚开始学习数据科学和科学计算的 Python 程序员阅读。读者可以从 GitHub 获取数据文件和相关资料。
利用Python进行数据分析 (原书第3版)的创作者
· · · · · ·
-
Wes McKinney 作者
作者简介 · · · · · ·
Wes McKinney 是 Voltron Data 的联合创始人兼首席技术官、Python 数据社区的活跃成员,同时也是在数据分析、金融和统计计算等领域推广使用 Python 的倡导者。Wes 毕业于麻省理工学院,同时也是 Apache 软件基金会的 Apache Arrow 和 Apache Parquet 项目的项目管理委员会成员。
目录 · · · · · ·
译者序
前言
第1章 准备工作
1.1 本书内容
1.2 为什么使用Python进行数据分析
1.3 重要的Python库
1.5 社区和会议
1.6 本书导航
第2章 Python语法基础、IPython和Jupyter notebook
2.1 Python解释器
2.2 IPython基础
2.3 Python语法基础
2.4 总结
第3章 Python的数据结构、函数和文件
3.1 数据结构和序列
3.2 函数
3.3 文件和操作系统
3.4 总结
第4章 NumPy基础:数组和向量化计算
4.1 NumPy的ndarray:多维数组对象
4.2 生成伪随机数
4.3 通用函数:快速的元素级数组函数
4.4 利用数组进行面向数组编程
4.5 使用数组进行文件输入和输出
4.6 线性代数
4.7 示例:随机漫步
4.8 总结
第5章 pandas入门
5.1 pandas的数据结构介绍
5.2 基本功能
5.3 描述性统计的汇总和计算
5.4 总结
第6章 数据加载、存储与文件格式
6.1 读写文本格式的数据
6.2 二进制数据格式
6.3 与Web API交互
6.4 与数据库交互
6.5 总结
第7章 数据清洗和准备
7.1 处理缺失数据
7.2 数据转换
7.3 扩展数据类型
7.4 字符串操作
7.5 分类数据
7.6 总结
第8章 数据规整:连接、联合和重塑
8.1 层次化索引
8.2 联合与合并数据集
8.3 重塑和透视
8.4 总结
第9章 绘图和可视化
9.1 matplotlib API入门
9.2 使用pandas和seaborn绘图
9.3 其他Python可视化工具
9.4 总结
第10章 数据聚合与分组操作
10.1 GroupBy机制
10.2 数据聚合
10.3 Apply:通用的“拆分-应用-联合”范式
10.4 分组转换和“展开式”GroupBy运算
10.5 透视表和交叉表
10.6 总结
第11章 时间序列
11.1 日期和时间数据的类型及工具
11.2 时间序列基础知识
11.3 日期的范围、频率以及移位
11.4 时区处理
11.5 周期及其算术运算
11.6 重采样及频率转换
11.7 移动窗口函数
11.8 总结
第12章 Python建模库介绍
12.1 pandas与模型代码的接口
12.2 用Patsy创建模型描述
12.3 statsmodels介绍
12.4 scikit-learn介绍
12.5 总结
第13章 数据分析案例
13.1 来自1.USA.gov的Bitly数据
13.2 MovieLens 1M数据集
13.3 1880—2010年间全美婴儿姓名
13.4 USDA食品数据库
13.5 2012年联邦选举委员会数据库
13.6 总结
附录A 高阶NumPy
A.1 ndarray对象的内部机理
A.2 高阶数组操作
A.2.1 重塑数组
A.2.2 C顺序和Fortran顺序
A.2.3 数组的拼接和拆分
A.2.4 元素的重复操作:tile和repeat
A.2.5 花式索引的等价方法:take和put
A.3 广播
A.3.1 沿其他轴向进行广播
A.3.2 通过广播设置数组的值
A.4 高阶ufunc应用
A.4.1 ufunc实例方法
A.4.2 使用Python编写新ufunc
A.5 结构化数组和记录式数组
A.5.1 嵌套dtype和多维字段
A.5.2 为什么使用结构化数组
A.6 关于排序的更多内容
A.6.1 间接排序:argsort和lexsort
A.6.2 其他排序算法
A.6.3 数组的部分排序
A.6.4 numpy.searchsorted:在有序数组中查找元素
A.7 使用Numba编写快速NumPy函数
A.8 高阶数组的输入和输出
A.8.1 内存映射文件
A.8.2 HDF5及其他数组存储方式
A.9 性能技巧
附录B 更多关于IPython的内容
B.1 终端快捷键
B.2 魔术命令
B.3 使用命令历史记录
B.4 与操作系统交互
B.5 软件开发工具
B.6 使用IPython进行高效开发的技巧
B.7 高阶IPython特性
B.8 总结
· · · · · · (收起)
前言
第1章 准备工作
1.1 本书内容
1.2 为什么使用Python进行数据分析
1.3 重要的Python库
1.5 社区和会议
1.6 本书导航
第2章 Python语法基础、IPython和Jupyter notebook
2.1 Python解释器
2.2 IPython基础
2.3 Python语法基础
2.4 总结
第3章 Python的数据结构、函数和文件
3.1 数据结构和序列
3.2 函数
3.3 文件和操作系统
3.4 总结
第4章 NumPy基础:数组和向量化计算
4.1 NumPy的ndarray:多维数组对象
4.2 生成伪随机数
4.3 通用函数:快速的元素级数组函数
4.4 利用数组进行面向数组编程
4.5 使用数组进行文件输入和输出
4.6 线性代数
4.7 示例:随机漫步
4.8 总结
第5章 pandas入门
5.1 pandas的数据结构介绍
5.2 基本功能
5.3 描述性统计的汇总和计算
5.4 总结
第6章 数据加载、存储与文件格式
6.1 读写文本格式的数据
6.2 二进制数据格式
6.3 与Web API交互
6.4 与数据库交互
6.5 总结
第7章 数据清洗和准备
7.1 处理缺失数据
7.2 数据转换
7.3 扩展数据类型
7.4 字符串操作
7.5 分类数据
7.6 总结
第8章 数据规整:连接、联合和重塑
8.1 层次化索引
8.2 联合与合并数据集
8.3 重塑和透视
8.4 总结
第9章 绘图和可视化
9.1 matplotlib API入门
9.2 使用pandas和seaborn绘图
9.3 其他Python可视化工具
9.4 总结
第10章 数据聚合与分组操作
10.1 GroupBy机制
10.2 数据聚合
10.3 Apply:通用的“拆分-应用-联合”范式
10.4 分组转换和“展开式”GroupBy运算
10.5 透视表和交叉表
10.6 总结
第11章 时间序列
11.1 日期和时间数据的类型及工具
11.2 时间序列基础知识
11.3 日期的范围、频率以及移位
11.4 时区处理
11.5 周期及其算术运算
11.6 重采样及频率转换
11.7 移动窗口函数
11.8 总结
第12章 Python建模库介绍
12.1 pandas与模型代码的接口
12.2 用Patsy创建模型描述
12.3 statsmodels介绍
12.4 scikit-learn介绍
12.5 总结
第13章 数据分析案例
13.1 来自1.USA.gov的Bitly数据
13.2 MovieLens 1M数据集
13.3 1880—2010年间全美婴儿姓名
13.4 USDA食品数据库
13.5 2012年联邦选举委员会数据库
13.6 总结
附录A 高阶NumPy
A.1 ndarray对象的内部机理
A.2 高阶数组操作
A.2.1 重塑数组
A.2.2 C顺序和Fortran顺序
A.2.3 数组的拼接和拆分
A.2.4 元素的重复操作:tile和repeat
A.2.5 花式索引的等价方法:take和put
A.3 广播
A.3.1 沿其他轴向进行广播
A.3.2 通过广播设置数组的值
A.4 高阶ufunc应用
A.4.1 ufunc实例方法
A.4.2 使用Python编写新ufunc
A.5 结构化数组和记录式数组
A.5.1 嵌套dtype和多维字段
A.5.2 为什么使用结构化数组
A.6 关于排序的更多内容
A.6.1 间接排序:argsort和lexsort
A.6.2 其他排序算法
A.6.3 数组的部分排序
A.6.4 numpy.searchsorted:在有序数组中查找元素
A.7 使用Numba编写快速NumPy函数
A.8 高阶数组的输入和输出
A.8.1 内存映射文件
A.8.2 HDF5及其他数组存储方式
A.9 性能技巧
附录B 更多关于IPython的内容
B.1 终端快捷键
B.2 魔术命令
B.3 使用命令历史记录
B.4 与操作系统交互
B.5 软件开发工具
B.6 使用IPython进行高效开发的技巧
B.7 高阶IPython特性
B.8 总结
· · · · · · (收起)
喜欢读"利用Python进行数据分析 (原书第3版)"的人也喜欢的电子书 · · · · · ·
支持 Web、iPhone、iPad、Android 阅读器
喜欢读"利用Python进行数据分析 (原书第3版)"的人也喜欢 · · · · · ·
- Python编程(第3版) 9.2
- 金融人工智能 7.3
- Excel + Python 6.8
- 数据库系统概念(原书第7版) 9.7
- 机器学习实战 (原书第2版) 9.5
- 软件架构 7.4
- 编程珠玑 (第2版) 8.5
利用Python进行数据分析 (原书第3版)的书评 · · · · · · ( 全部 80 条 )
作者用心写书,译者用脚翻译
我没看过第一版的中文版,看大家说还不错,但是这第二版,就很一言难尽,特别是在我看了一部分原版书后… 翻译的人对于一些对象的内置方法和函数参数的表格翻译根本就是逐字直译,完全不符合中国人常理解的基本习惯。翻译难道不是为了让人看懂吗?表格翻译尤其糟糕,文字部分也...
(展开)
五星给内容,三星给翻译
书的内容不错,很适合做量化建模工具书,但是这个翻译真是不敢恭维,有些地方翻译的语句不通,有些地方直接译错了,比如刚才看到第220页写的“通常,我们不会使用DataFrame中一个或多个列作为行索引”,感觉这话说反了,看了一下英文原版电子版,原文是“It‘s not unusual to ...
(展开)
> 更多书评 80篇
这本书的其他版本 · · · · · · ( 全部12 )
-
机械工业出版社 (2013)8.6分 1580人读过
-
O'Reilly Media (2012)8.4分 290人读过
-
机械工业出版社 (2018)8.4分 593人读过
-
O'Reilly Media (2017)9.0分 185人读过
以下书单推荐 · · · · · · ( 全部 )
- Python基础库:数据科学/数据分析/机器学习 (李鼎)
- 数学 (豆友4VlKqFHNL8)
- 数据分析 (昵称不能为空)
- Python好书 (浮生许我半日闲)
- 藏书阁 (望天)
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有669人想读,手里有一本闲着?
订阅关于利用Python进行数据分析 (原书第3版)的评论:
feed: rss 2.0
0 有用 小小文 2024-11-30 22:23:27 广东
20241019-20241130
8 有用 全神贯注 2024-05-02 23:10:28 广东
本书是这个领域不可替代的书籍,第二版是一个糟糕的译本。第三版换了译者,这个译者私下翻译过第二版,翻阅了一下,对第三版非常有信心。 看完了,追评一下,很丝滑,很满意
2 有用 Utopia 2023-11-23 15:50:20 北京
终于等到你!老鼠书更新了
0 有用 马孔多的老男孩 2024-03-02 01:31:55 云南
言过其实了,这本书并不适合新手,只适合复习和进阶,随机漫步的代码有点问题,
0 有用 。 2024-11-12 00:54:09 四川
55(13) 还是需要在项目中,边做边看。 打算当做工具书了。