《大数据》试读:译 者 序

这是继2009年翻译完《信息检索导论》之后,我翻译的第二本书。翻译完前一本书之后,我曾经下决心几年之内不再翻译书。这一方面是由于翻译书十分辛苦并且需要花费大量的时间,我怕时间和精力上难以保证。另一方面,书的翻译质量好坏会让有点完美主义倾向的我始终承受着巨大的心理压力。但是,我终究没能经受住诱惑。每次看到优秀的英文原版书籍时,都有尽快翻译成中文和国内同仁分享的冲动。而这次冲动的表现就是,我主动请缨提交试译稿,并有幸被出版社选中而再次开始了翻译的历程。 在我的理解体系下,信息检索是一门跨众多学科领域的研究方向,其主要的应用形式包括搜索、推荐和挖掘等三种。如果说先前翻译的《信息检索导论》注重信息检索的基本理论和搜索应用的话,那么本书则关注了推荐和挖掘应用。在这个意义上说,这两本书可以互为补充。这也是我选择本书进行翻译的原因之一。另一个原因在于本书集中关注大数据处理这个极具研究和应用前景的话题,一想到它可以为很多人带来帮助就让我欣慰不已。 同《信息检索导论》一样,本书的电子版也先于印刷版在斯坦福大学网站上公开。得到电子版书籍之后,我很快就看完了并且迫不及待地在课题组内进行了推广,我的很多学生都集中学习了本书。本书主要以Web上的数据为对象介绍大规模情况下的数据挖掘。除了传统的聚类、频繁项发现及链接分析等内容外,它还介绍了数据流挖掘、互联网广告及推荐系统等近年来被广泛关注的话题。特别地,本书专门介绍了支持大规模数据挖掘的分布式文件系统及Map-Reduce分布式计算框架。和《信息检索导论》一书相比,本书在理论上虽然可能不如前者深入,但是它在简明扼要阐明基本原理的基础上,更侧重大数据环境下的实际算法实现。具体地,本书给出了在面对大规模数据时基于Map-Reduce框架的多个算法实现。换句话说,它的算法可以在大数据环境下真正“落地”,这无疑给想要或致力于大数据挖掘的读者带来理解和实现上的巨大裨益。 虽然我的很多学生都对本书内容有较深的理解,但是为了保持翻译风格的一致性并对本书翻译负全部责任,在出版社的建议下我还是与前一本书一样选择了自己独立翻译。整个翻译前后持续了七个多月,并历经多次修改。初稿完成后我发给本领域的一些专家审阅,并得到复旦大学黄萱菁教授、中科院自动化所赵军研究员、中科院软件所孙乐研究员、中科院研究生院何苯博士等人的建设性意见和建议。对他们的无私帮助,我表示由衷的感谢。感谢图灵公司的武总、谢总、傅志红、卢秀丽等人为本书付出的努力,感谢人民邮电出版社杨海玲女士的大力引荐。通过翻译,我也认识了图灵公司及图灵社区的众多朋友,并从他们身上学到了很多宝贵的东西。感谢对我译书给予支持和鼓励的李锦涛研究员、孟丹研究员、郭莉研究员、刘群研究员、贺劲博士、虎嵩林博士等领导、朋友和同事。感谢我的学生们作为最早的读者给予的建议和意见。感谢我的家人,他们总是无怨无悔地给我最大的支持和包容,让我能够全身心投入到工作和翻译当中。由于翻译基本在业余时间完成,因此加班便成了家常便饭。4岁的儿子心心在我每次出门前都嘱咐我路上小心,这让我感到幸福并给我力量。翻译过程中,我和原书作者Jeffrey David Ullman进行了邮件交流,澄清了理解上的一些误区,并更正了原书中一些错误。我的翻译也得到了对方的热情鼓励。 因本人各方面水平有限,现有译文中肯定存在许多不足。希望读者能够和我进行联系,以便能够不断改进。来信请联系wbxjj2008@gmail.com,本书勘误会及时公布在网站http://ir.ict.ac.cn/ ~wangbin/mmd-book/上。原书的初稿电子版等信息也可以从网站http://infolab.stanford.edu/ ~ullman/mmds.html下载。 王 斌 2012年7月20日于中关村

>大数据

大数据
作者: Anand Rajaraman, Jeffrey David Ullman
副标题: 互联网大规模数据挖掘与分布式处理
isbn: 7115291314
书名: 大数据
页数: 258
译者: 王斌
定价: 59.00元
原作名: Mining of Massive Datasets
出版社: 人民邮电出版社
装帧: 平装
出版年: 2012-9