《Spark快速大数据分析》试读:译者序
大数据是近几年广受关注的一个概念。今天,互联网不断发展,逐渐深入我们生活的各个层面,随之而来的是数据量的指数级增长。很久以前,人类就学会了通过分析数据获取有价值的结论。有时,影响结论的因素过多,采样的数据无法有效保留所有因素的影响,得出的结论就不够有效。如果不使用采样,而原始数据规模巨大,我们就需要改进数据处理的手段。从人工统计到利用一些传统的计算机软件进行分析,再到MapReduce 模型,随着数据规模不断增长,我们处理数据的方式也在不断升级。如今,硬件产业的不断发展使得内存计算成为了可能,Spark 由此出现,并且像它的名字一样,以星火之势,迅速赢得了工业界的青睐。
《Spark 快速大数据分析》是一本为Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark 的用法,它对Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
Spark 只是一个通用计算框架,利用Spark 实现的应用才是其真正价值所在。我们很欣慰地看到,国内的许多知名互联网公司已经利用Spark 创造出了难以估量的价值。本书的读者不妨也尝试把Spark 应用到实践中,去探寻数据海洋里的无尽瑰宝。
本书得以完成,离不开各方支持。感谢人民邮电出版社图灵公司的李松峰老师、岳新欣老师、张曼老师,他们为本译稿的出版提供了大力支持。感谢本人所在的英特尔亚太研发有限公司大数据团队,其中程浩、孙锐、俞育才、张李晔分别负责了本书各部分的审校工作,黄洁、邵赛赛、史鸣飞也为本书的翻译工作提供了帮助。感谢Databricks 的连城学长,他促成了我与出版社的合作。在翻译的过程中,来自家人与朋友的理解和支持也让我深深感动。
如本书所述,Spark 是一个大一统的软件栈,涉及方方面面的知识,为本书的翻译增加了不少难度。尽管译者一直努力保证翻译的准确性,由于学识有限,难免会有疏忽之处。而大数据作为一门新兴学科,许多术语尚未有约定俗成的译法。Spark 也在不断发展中,本书英文稿是根据Spark 1.2 编纂,而译者也尽量标注了直至Spark 1.4 为止(翻译时的最新版本)引入的一些变化。如果读者发现了本书中的不足或错误之处,恳请批评指正。我的电子邮箱是:me@daoyuan.wang。
王道远
2015 年夏
作者: [美] Holden Karau, [美] Andy Konwinski, [美] Patrick Wendell, [加] Matei Zaharia
原作名: Learning Spark: Lightning-Fast Big Data Analysis
isbn: 7115403090
书名: Spark快速大数据分析
页数: 232
译者: 王道远
定价: 59.00元
出版社: 人民邮电出版社
出版年: 2015-10
出品方: 图灵教育