2019年的大数据技术考古
前几天看到一个行业相关的云平台技术方案的架构图,粗略看了一下,觉得其应该是基于经典的大数据方案构建的,所以决定静下心来,在2019年这个大数据已经渐凉的时间点上,对大数据架构进行一下考古,自己补习一下。找来找去,目前谈大数据架构的书籍只有这本还算不错,其他的书籍要么专注论述某种技术,要么专注论述大数据对经济社会的影响。
至于书的内容,主要是论述 Lambda 架构的原理,同时结合一些经典的技术,实现了一个例子。具体的代码我没有详细的看,架构描述还是非常清晰的,虽然当下 Kappa 架构都已经不是新生事物了,但要想深入理解各种大数据技术,Lambda 架构无论如何是绕不过去的,这本书作为入门应该是非看不可的。
说起 Lambda 架构,让我想起20年前做过的一个计费系统项目,也是批处理方式处理 Netscape proxy 服务器的日志信息,计算出用户流量相关的视图,存入 MySQL 数据库,配合 PHP 实现服务层。当然这一切和大数据无关,复杂度和数据量与现代的信息系统也有天壤之别,但其架构上还是有很多相通之处的。但随着岁月流逝,数据库系统的性能逐渐提升,这种批处理方式,或者说围绕着日志数据构建信息系统的思路逐渐被围绕着关系数据库开发的思路取代,然后我们面对的就是各种复杂的数据库方案,越来越依赖类似 Oracle RAC 这种代价高昂的私有技术。终于高性能关系数据库也开始遇到无法驾驭的数据量了,此时方案才又回归到20年前常用的思路上,技术发展又走了一个轮回。
当下很多的信息系统远远谈不上大数据,很多项目也都是在拿大数据吹牛,但抛开数据量不谈,只看信息系统架构,这本书绝对很有启发性。
附上读书时的思维导图。

《大数据系统构建》思维导图
有关键情节透露