Name: Spark最佳实践
ISBN: 9787115422286

作者: 陈　欢 / 林世飞
出版社: 人民邮电出版社
出版年: 2016-5
页数: 224
定价: 49.00元
装帧: 平装
丛书: 图灵原创
ISBN: 9787115422286

豆瓣评分

5.5

21人评价

5星

4.8%
4星

9.5%
3星

38.1%
2星

33.3%
1星

14.3%

评价:

内容简介 · · · · · ·

本书是Spark实战指南，全书共分8章。前4章介绍Spark的部署、工作机制和内核，后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外，本书详细介绍了常见的实战问题，比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本，更能为初学者提供很大帮助。

作者简介 · · · · · ·

陈欢

腾讯资深程序员，15年编码经验，曾任职网络安全、互联网金融等部门，亲手从零建设了财付通业务的Spark集群，并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部，从事大数据分析工作。

林世飞

腾讯资深研究员，2005年加入腾讯，先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解，热衷知识传播和分享，曾获腾讯学院2009年年度优秀讲师。目前，他就职于社交与效果广告部，负责广告系统相关的研发工作。

目录 · · · · · ·

第1章　Spark与大数据　　1
1.1 　大数据的发展及现状　　1
1.1.1 　大数据时代所面临的问题　　1
1.1.2 　谷歌的大数据解决方案　　2
1.1.3 　Hadoop生态系统　　3
1.2 　Spark应时而生　　4
· · · · · · (更多)

"Spark最佳实践"试读 · · · · · ·

前面提到的Spark计算或Spark SQL计算，它们类似的地方是涉及的数据量庞大，计算时间长，典型场景下一次计算的耗时一般是数分钟或者数小时。但在实际业务场景中，还有一类称作流式计算的应用，需要实时对大量数据进行快速处理，最明显的特点就是处理周期短，一般是分钟级，甚至秒级、毫秒级，而且是7 × 24小时连续不断地进行计算。对于实时流式数据计算，Spark通过Spark Streaming组..