R与Hadoop的结合绝非这么容易

Item: R与Hadoop大数据分析实战
Rating: 3
Author: PhD_Jason

2015-12-17 20:34:38

这篇书评可能有关键情节透露

首先感谢机械工业出版社的赠书，有幸试读，由于前段时间比较忙，没来得及写书评，，本人作为数据分析和大数据方向的博士生，个人之见认为这本书很浅显，全书可谓算是例子的也就第六章，前两章讲述如何安装R和如何安装Hadoop，同时有一种感觉就像是买来的初级的书。
在我看来，对于能够看这本书的人，首先，至少会对R有一定的理解，同时也会对Hadoop有一定的了解，不至于连安装都要照着书本来吧。同时本书并没有更新版本。只能说书中采用了Hadoop1.0的框架，与之后更新的2.0框架可谓是天差地别，因此我觉得本书应该修正。
同时本书含有少量的错误，我查看过英文原版，认为是译者的疏忽，请仔细校对。
不过本书并非没有建树，本人认为在某些方面，比如在线性回归上，至少给出了R在大数据背景下应该使用MapReduce的例子。但是在算法以及实例上，本书显得很薄弱。我想说，本书有意思的是，在安装和应用上，本书用了将近一半的篇幅，可到了其实读者最期待的，终于可以做数据分析的时候，却仅仅有了一章。
同时本书在仅仅一章的篇幅中，列举了线性回归，Logistic回归，监督和无监督算法，以及推荐系统。可谓是包罗万象了。让一些不懂得机器学习的人一头雾水。不过好在给出了相应的参考文献，不过我相信就算是中级水平的人，不是专门做研究数据挖掘的人，看这些参考文献也不是一件容易的事情。而且就算是本书提到的最详细的例子，线性回归的例子，采用了向量形式对其进行实验，感觉对于初学者是有些难度的，书中并没有解释如何去利用线性代数的思想去解释这些线性回归问题，就是说和大部分的数据挖掘书一样，只是列举了公式，而并没有告诉大家公式的由来，这就为本身学术水平和数学水平一般的读者带来了挑战。
以上就是本人对本书的一小部分看法。
下面来谈一谈我对R语言和Hadoop的看法；
首先，做大数据分析，你至少要会一门辅助性语言，比如R,比如Python,比如Octave,Matlab这类的，因为它们封装了很多机器学习的类，这样做，可以让你专心研究算法上，而不是注重程序本身的对错。不用像Java一样考虑整个程序的异常与错误。
然后通过你根据这些最终实现，R提供大量的工具包和图像效果，在做数据分析时，最主要的就是用来呈现结果，R是一个不错的选择。
Hadoop对于新手来说，是一个很大的挑战，首先要学习Linux知识，其次要了解Hadoop的核心技术MapReduce,所以R结合Hadoop也无非是将原有的小样本的分析转换在大样本的操作上，间单点说就是R与MapReduce结合。
所以我建议看本书前。是需要前置工作的，至少会R,至少了解Hadoop，更重要的是，你一定要对机器学习有一定了解，才能在大数据领域看懂纯算法类书籍而不是应用在平台上的，要不你会对实验很迷惑，因为那些绝不仅仅是公式而已。