作者:
[美] Russell Jurne
出版社: 电子工业出版社
副标题: 用Hadoop创建数据分析应用
原作名: Agile Data Science
译者: 冯文中 / 朱洪波
出版年: 2014-7
页数: 184
定价: 49.00元
装帧: 平装
丛书: O'Reilly动物系列(中译本)
ISBN: 9787121236198
出版社: 电子工业出版社
副标题: 用Hadoop创建数据分析应用
原作名: Agile Data Science
译者: 冯文中 / 朱洪波
出版年: 2014-7
页数: 184
定价: 49.00元
装帧: 平装
丛书: O'Reilly动物系列(中译本)
ISBN: 9787121236198
内容简介 · · · · · ·
《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。
作者简介 · · · · · ·
作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。
译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。
目录 · · · · · ·
第1 部分 起步 ............................................................... 1
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
Big Words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
· · · · · · (更多)
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
Big Words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
· · · · · · (更多)
第1 部分 起步 ............................................................... 1
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
Big Words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
敏捷大数据流程 ................................................................................................... 11
代码检查和结对编程 ...........................................................................................12
敏捷的场所:开发的效率 ....................................................................................13
协作空间 .......................................................................................................14
私人空间 .......................................................................................................14
个人空间 .......................................................................................................14
用大幅打印件明确表达想法 ................................................................................15
第2 章 数据 ............................................................... 17
电子邮件 ..............................................................................................................17
处理原始数据 ......................................................................................................18
原始的电子邮件 ............................................................................................18
结构化与半结构化数据 .................................................................................18
SQL ......................................................................................................................20
NoSQL .................................................................................................................24
序列化 ...........................................................................................................24
从演变的模式中抽取和展示特征 ..................................................................25
数据流水线 ...................................................................................................26
数据透视 ..............................................................................................................27
社交网络 .......................................................................................................28
时间序列 .......................................................................................................30
自然语言 .......................................................................................................31
概率 ...............................................................................................................33
小结 .....................................................................................................................35
第3 章 敏捷开发工具 ................................................... 37
可扩展性= 简洁...................................................................................................37
敏捷大数据处理 ...................................................................................................38
设置运行Python 的虚拟环境 ...............................................................................39
使用Avro 对事件进行序列化 ..............................................................................40
在Python 中使用Avro ..................................................................................40
收集数据 ..............................................................................................................42
使用Pig 处理数据................................................................................................44
安装Pig .........................................................................................................45
使用MongoDB 发布数据 ....................................................................................49
安装MongoDB ..............................................................................................49
安装MongoDB 的Java 驱动程序 .................................................................50
安装mongo-hadoop .......................................................................................50
用Pig 向MongoDB 推送数据 .......................................................................50
使用ElasticSearch 搜索数据 ................................................................................52
安装 ...............................................................................................................52
使用Wonderdog 整合ElasticSearch 和Pig ...................................................53
对工作流程的反思 ...............................................................................................55
轻量级的Web 应用 ..............................................................................................56
Python 和 Flask .............................................................................................56
展示数据 ..............................................................................................................58
安装Bootstrap ...............................................................................................58
启用Bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可视化数据 ..................................................................63
小结 .....................................................................................................................64
第4 章 在云端 ............................................................. 65
引言 .....................................................................................................................65
GitHub .................................................................................................................67
dotCloud ...............................................................................................................67
dotCloud Echo 服务 .......................................................................................68
Python 工作者服务 ........................................................................................71
Amazon Web Services ..........................................................................................71
Simple Storage Service ..................................................................................71
Elastic MapReduce ........................................................................................72
MongoDB 即服务 ..........................................................................................79
辅助工具(Instrumentation) ................................................................................81
Google Analytics ...........................................................................................81
Mortar Data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示数据 ............................................... 89
整合软件栈 ..........................................................................................................90
收集并序列化收件箱 ...........................................................................................90
处理和发布邮件数据 ...........................................................................................91
在浏览器中显示邮件 ...........................................................................................93
用Flask 和pymongo 处理邮件数据 ..............................................................94
使用Jinja2 渲染HTML5 页面 ......................................................................94
敏捷检查点 ..........................................................................................................98
生成电子邮件清单 ...............................................................................................99
用MongoDB 显示邮件 .................................................................................99
对数据展示的分析 ...................................................................................... 101
搜索邮件 ............................................................................................................ 106
使用Pig,ElasticSearch 和Wonderdog 构建索引 ....................................... 106
在网页中搜索邮件数据 ............................................................................... 107
结论 ................................................................................................................... 108
第6 章 使用图表可视化数据 ....................................... 111
优秀的图表 ........................................................................................................ 112
抽取实体:邮件地址 ......................................................................................... 112
抽取邮件 ..................................................................................................... 112
对时间进行可视化 ............................................................................................. 116
结论 ................................................................................................................... 122
第7 章 利用报表探索数据 .......................................... 123
为数据添加联系 ................................................................................................. 126
用TF-IDF 从邮件中提取关键字 ........................................................................ 133
小结 ................................................................................................................... 138
第8 章 预测 .............................................................. 141
预测电子邮件的回复率 ...................................................................................... 142
个性化 ................................................................................................................ 147
小结 ................................................................................................................... 148
第9 章 驱动行动 ........................................................ 149
好邮件的属性 .................................................................................................... 150
使用朴素贝叶斯方法进行更好的预测 ............................................................... 150
P(Reply | From ∩ To) ........................................................................................ 150
P(Reply | Token) ................................................................................................. 151
实时预测 ............................................................................................................ 153
记录事件日志 .................................................................................................... 157
小结 ................................................................................................................... 157
索引 ........................................................................... 159
· · · · · · (收起)
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
Big Words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
敏捷大数据流程 ................................................................................................... 11
代码检查和结对编程 ...........................................................................................12
敏捷的场所:开发的效率 ....................................................................................13
协作空间 .......................................................................................................14
私人空间 .......................................................................................................14
个人空间 .......................................................................................................14
用大幅打印件明确表达想法 ................................................................................15
第2 章 数据 ............................................................... 17
电子邮件 ..............................................................................................................17
处理原始数据 ......................................................................................................18
原始的电子邮件 ............................................................................................18
结构化与半结构化数据 .................................................................................18
SQL ......................................................................................................................20
NoSQL .................................................................................................................24
序列化 ...........................................................................................................24
从演变的模式中抽取和展示特征 ..................................................................25
数据流水线 ...................................................................................................26
数据透视 ..............................................................................................................27
社交网络 .......................................................................................................28
时间序列 .......................................................................................................30
自然语言 .......................................................................................................31
概率 ...............................................................................................................33
小结 .....................................................................................................................35
第3 章 敏捷开发工具 ................................................... 37
可扩展性= 简洁...................................................................................................37
敏捷大数据处理 ...................................................................................................38
设置运行Python 的虚拟环境 ...............................................................................39
使用Avro 对事件进行序列化 ..............................................................................40
在Python 中使用Avro ..................................................................................40
收集数据 ..............................................................................................................42
使用Pig 处理数据................................................................................................44
安装Pig .........................................................................................................45
使用MongoDB 发布数据 ....................................................................................49
安装MongoDB ..............................................................................................49
安装MongoDB 的Java 驱动程序 .................................................................50
安装mongo-hadoop .......................................................................................50
用Pig 向MongoDB 推送数据 .......................................................................50
使用ElasticSearch 搜索数据 ................................................................................52
安装 ...............................................................................................................52
使用Wonderdog 整合ElasticSearch 和Pig ...................................................53
对工作流程的反思 ...............................................................................................55
轻量级的Web 应用 ..............................................................................................56
Python 和 Flask .............................................................................................56
展示数据 ..............................................................................................................58
安装Bootstrap ...............................................................................................58
启用Bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可视化数据 ..................................................................63
小结 .....................................................................................................................64
第4 章 在云端 ............................................................. 65
引言 .....................................................................................................................65
GitHub .................................................................................................................67
dotCloud ...............................................................................................................67
dotCloud Echo 服务 .......................................................................................68
Python 工作者服务 ........................................................................................71
Amazon Web Services ..........................................................................................71
Simple Storage Service ..................................................................................71
Elastic MapReduce ........................................................................................72
MongoDB 即服务 ..........................................................................................79
辅助工具(Instrumentation) ................................................................................81
Google Analytics ...........................................................................................81
Mortar Data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示数据 ............................................... 89
整合软件栈 ..........................................................................................................90
收集并序列化收件箱 ...........................................................................................90
处理和发布邮件数据 ...........................................................................................91
在浏览器中显示邮件 ...........................................................................................93
用Flask 和pymongo 处理邮件数据 ..............................................................94
使用Jinja2 渲染HTML5 页面 ......................................................................94
敏捷检查点 ..........................................................................................................98
生成电子邮件清单 ...............................................................................................99
用MongoDB 显示邮件 .................................................................................99
对数据展示的分析 ...................................................................................... 101
搜索邮件 ............................................................................................................ 106
使用Pig,ElasticSearch 和Wonderdog 构建索引 ....................................... 106
在网页中搜索邮件数据 ............................................................................... 107
结论 ................................................................................................................... 108
第6 章 使用图表可视化数据 ....................................... 111
优秀的图表 ........................................................................................................ 112
抽取实体:邮件地址 ......................................................................................... 112
抽取邮件 ..................................................................................................... 112
对时间进行可视化 ............................................................................................. 116
结论 ................................................................................................................... 122
第7 章 利用报表探索数据 .......................................... 123
为数据添加联系 ................................................................................................. 126
用TF-IDF 从邮件中提取关键字 ........................................................................ 133
小结 ................................................................................................................... 138
第8 章 预测 .............................................................. 141
预测电子邮件的回复率 ...................................................................................... 142
个性化 ................................................................................................................ 147
小结 ................................................................................................................... 148
第9 章 驱动行动 ........................................................ 149
好邮件的属性 .................................................................................................... 150
使用朴素贝叶斯方法进行更好的预测 ............................................................... 150
P(Reply | From ∩ To) ........................................................................................ 150
P(Reply | Token) ................................................................................................. 151
实时预测 ............................................................................................................ 153
记录事件日志 .................................................................................................... 157
小结 ................................................................................................................... 157
索引 ........................................................................... 159
· · · · · · (收起)
"敏捷数据科学"试读 · · · · · ·
原文摘录 · · · · · ·
丛书信息
· · · · · ·
O'Reilly动物系列(中译本)(共317册),
这套丛书还有
《信息架构》《像计算机科学家一样思考Java(第二版)》《高可用MySQL(第2版)》《Clojure编程》《学习bash》
等
。
喜欢读"敏捷数据科学"的人也喜欢的电子书 · · · · · ·
支持 Web、iPhone、iPad、Android 阅读器
喜欢读"敏捷数据科学"的人也喜欢 · · · · · ·
- 编码整洁之道 8.5
- 寻路大数据 8.2
- 写给大忙人看的Java SE 8 8.1
- 程序设计实践 8.3
- R语言核心技术手册(第2版) 8.7
- 高可用MySQL 7.7
- 编程的修炼(中英双语) 9.2
- 集体智慧编程 8.6
- 快学Scala 7.5
- Clojure编程 8.5
敏捷数据科学的书评 · · · · · · ( 全部 1 条 )
> 更多书评 1篇
论坛 · · · · · ·
在这本书的论坛里发言这本书的其他版本 · · · · · · ( 全部2 )
-
O'Reilly Media (2013)8.3分 16人读过
以下书单推荐 · · · · · · ( 全部 )
谁读这本书? · · · · · ·
二手市场
· · · · · ·
- 在豆瓣转让 有81人想读,手里有一本闲着?
订阅关于敏捷数据科学的评论:
feed: rss 2.0
2 有用 懒得糊涂 2018-02-20 10:46:13
整本书用通俗易懂的一个案例介绍了一个完整数据流的处理过程,并没有介绍算法等核心功能。对不了解etl,olap的初学者有一个简明易懂的介绍,建议完全不懂大数据 数据清洗的人拿来看看,有过了解和研究的人不能得到帮助
0 有用 volnet 2022-12-11 23:06:54 北京
我曾有个疑惑,过去以业务为核心的应用开发,我们通常可以用demo到实现的方式进行敏捷,也就是当我有第一个文本块的时候,我就可以设计它并和客户讨论我的价值主张的可行性。因为我们要论证的是“我的或者客户的观点”。但在数据挖掘领域,我们要挖掘的是“数据的观点”,对,数据有自己的观点,既不是我的也不是客户的,我们只是提出对于观点的假设,并论证这些假设是否成立。
0 有用 风Ooo 2017-07-06 09:00:20
小动物系列,内插不错,思路很清晰
0 有用 落雪青禾 2015-02-08 23:29:12
一般般般
0 有用 沂水弦歌 2014-09-09 15:59:19
蛮失望的 整本书蜻蜓点水 关于算法几乎没有涉及
0 有用 volnet 2022-12-11 23:06:54 北京
我曾有个疑惑,过去以业务为核心的应用开发,我们通常可以用demo到实现的方式进行敏捷,也就是当我有第一个文本块的时候,我就可以设计它并和客户讨论我的价值主张的可行性。因为我们要论证的是“我的或者客户的观点”。但在数据挖掘领域,我们要挖掘的是“数据的观点”,对,数据有自己的观点,既不是我的也不是客户的,我们只是提出对于观点的假设,并论证这些假设是否成立。
2 有用 懒得糊涂 2018-02-20 10:46:13
整本书用通俗易懂的一个案例介绍了一个完整数据流的处理过程,并没有介绍算法等核心功能。对不了解etl,olap的初学者有一个简明易懂的介绍,建议完全不懂大数据 数据清洗的人拿来看看,有过了解和研究的人不能得到帮助
0 有用 风Ooo 2017-07-06 09:00:20
小动物系列,内插不错,思路很清晰
0 有用 wedaren 2016-09-26 10:00:44
走马观花
0 有用 夜里不倦日磕冲 2015-05-30 11:39:04
比较普通的一本书,以邮件为例大幅度介绍从采集存储分析到展示的常见框架。最后稍许介绍了点数据分析。