大数据入门书单
去年开始因为项目需要,强补了一波数据/大数据领域的知识。以下书单是我看过的书籍里,个人认为比较有价值的,推荐一下。
1. SQL基础:理解数据库技术绝对不low,是搞数据的基石。
SQL基础教程https://book.douban.com/subject/27055712/
SQL进阶教程https://book.douban.com/subject/27194738/
SQL反模式https://book.douban.com/subject/6800774/
2. 大数据系统
Hadoop海量数据处理(第2版)
国人写的,篇幅小些。直接使用原生Hadoop的项目已经不多了,但是hadoop原理还是要了解的。
https://book.douban.com/subject/27075552/
Hadoop权威指南:大数据的存储与分析
权威,成体系,知识量偏大了些。Hadoop的书挑一本看就可以了。
https://book.douban.com/subject/27115351/
Spark快速大数据分析:这书比较老是spark1.x系列的,对理解spark的原理比较有用
https://book.douban.com/subject/26616244/
Spark The Definitive Guide: Big Data Processing Made Simple
Spark权威指南是相对新的,大约到spark2.3左右。作者是spark的主创者。除了后面机器学习那部分外,总体是很好读的。
https://book.douban.com/subject/27035127/
Practical Hive: A Guide to Hadoop's Data Warehouse System
对理解Hive在大数据系统里的角色很有帮助,作者写的数仓管理很实践,原理说的不多。https://book.douban.com/subject/30367739/
Streaming Systems : The What, Where, When, and How of Large-Scale Data Processing
流式处理里面比较有教科书风格的书。主要作者是google公司的,学问是深的,也软广告了不少google自己的beam框架。
https://book.douban.com/subject/27080632/
大规模数据处理实战(极客时间)
作者是google brain的资深工程师。这个讲座,知识浅,眼界宽。适合了解大数据系统和历史演变的,对工程实践指导较少。是唯一推荐给大家不需要做大数据,但想快速了解大数据是什么的教程。
https://time.geekbang.org/column/article/90067
3.数据可视化
最简单的图形与最复杂的信息 : 如何有效建立你的视觉思维
这本书简洁易懂,适合新手。
https://book.douban.com/subject/25755879/
数据之美 : 一本书学会可视化设计
https://book.douban.com/subject/25833225/
4.大数据体系
大数据之路:阿里巴巴大数据实践
https://book.douban.com/subject/27074564/
成体系化的大数据,到底长什么样,工程量有多大。这书可以一窥全貌。
附:
kafka是数据/日志系统里的重要角色。了解它的使用和设计是很有收获的。
Kafka权威指南
kafka核心作者写的,也比较好读。
https://book.douban.com/subject/27665114/
Apache Kafka实战
国人写的kafka里,比较干货的一本。
https://book.douban.com/subject/30221096/
这两本挑一本看就够了。