之前看spark视频 都是讲RDD 看了这本书的中文版 是2020年4月新鲜出炉的 重点介绍了dataframe和datasets 部分文字稍显冗余 不够简明扼要 但是逻辑结构清晰 每个部分都有所涵盖 作为初中级入门与应用是可以的 唯一感觉案例实战可能不是太多 但是知识点还是比较全面的 后面结合官方文档 在公司电脑上跑一下案例 把hive脚本都改成spark试试执行效果 这本书很新 以后会作为案头书常看
书里说对于执行df而言 用python或者sql效率和scala是一样的 明白了很多困惑的地方