《大数据》试读

第1章 数据挖掘基本概念

本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理(Bonferroni’s principle),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e... (更多)

前  言

本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学教授多年的一门季度课程的材料基础上总结而成的。该课程名为“Web挖掘”(编号CS345A),尽管它已经成为高年级本科生能接受并感兴趣的课程之一,但其原本是一门为高年级研究生设计的课程。 本书内容 简单来说,本书是关于数据挖掘的。但是,本书主要关注极大规模数据的挖掘,也就是说这些数据大到无法在内存中存放。由于重点.. (更多)

译 者 序

这是继2009年翻译完《信息检索导论》之后,我翻译的第二本书。翻译完前一本书之后,我曾经下决心几年之内不再翻译书。这一方面是由于翻译书十分辛苦并且需要花费大量的时间,我怕时间和精力上难以保证。另一方面,书的翻译质量好坏会让有点完美主义倾向的我始终承受着巨大的心理压力。但是,我终究没能经受住诱惑。每次看到优秀的英文原版书籍时,都有尽快翻译成中文和国内同仁分享的... (更多)

>大数据

大数据
作者: Anand Rajaraman, Jeffrey David Ullman
副标题: 互联网大规模数据挖掘与分布式处理
isbn: 7115291314
书名: 大数据
页数: 258
译者: 王斌
定价: 59.00元
原作名: Mining of Massive Datasets
出版社: 人民邮电出版社
装帧: 平装
出版年: 2012-9