Hadoop的正面与侧面

这篇书评可能有关键情节透露
由于有<Hadoop权威指南>, 导致这本书在国内的知名度不高, 但这一本是我认为国内翻译的最好的Hadoop书, 一不小心把整本书的每个字都扣过了(当然也花费了大量的时间, 扉页记录了阅读的历程: 16年9月 ~ 18年8月-_-|| -_-||)
Hadoop是最经典Google设计风格(Master-Slave架构), 对开发分布式存储、计算有非常大的借鉴意义(最开始去学习的初衷也是我们开发的客流分析系统遇到了系统设计的瓶颈, 想了解Google处理类似问题的思路), 虽然第二代Hadoop平台(YARN)的出现可以用来解决大集群带来的问题(比如分担JobTracker的压力, 对职责拆分的更合理), 但对于小集群来说, JobTracker的性能就足够了, 我个人认为已经达到了一个设计复杂性与性能的很好平衡, 毕竟很少有团队能够遇到那么大的分布式集群.
关于本书, 可以认为是<权威指南>的缩写版, 虽然深度不深, 但面面俱到, 并留足了思考的空间, 给出了进一步学习的建议, 比如HDFS部分就可以配合<权威指南>查漏补缺(但一定是英文版, 不然你会发现中文版更难懂), 下面是我在学习过程中遇到的非常好的资源, 希望能帮得到你:
1. 深入浅出MapReduce: https://www.bilibili.com/video/av10681909
2. 从Hadoop到Spark: https://www.youtube.com/watch?v=NG2SR5URebI
3. Hadoop内部原理: 分布式系统如何实现存储、调度、计算: https://www.youtube.com/watch?v=_QkKw82ge6g&t=35s
4. Apache开源社区与Hadoop、Hive趋势: https://www.bilibili.com/video/av14730447
5. 解读大数据世界的MapReduce前世今生: https://www.bittiger.io/classpage/LBQkrQ8ZLEJPuyBA3
6. 慕课: Hadoop实战进阶: https://www.imooc.com/learn/890
7. 知乎专栏: https://www.zhihu.com/topic/19563390/hot
8. 董西成博客: http://www.dongxicheng.org/ (或者关注Hadoop123公众号)
9. 两篇高质量文章:
http://zheming.wang/blog/2015/07/24/17505A21-0204-48AB-8EBE-EAC911B22821
http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4D
MR的设计非常简洁, 一方面可以更通用的来处理复杂问题, 另一方面, 也更易于优化
- Spark速度明显快于MR, 同时又提供了storm的能力, 可以了解下
- MR完全可以作为一个项目的运行环境, 比如加载Spring等