Name: 大数据
ISBN: 9787115395252

作者: 莱斯科夫 (Jure Leskovec) / 拉贾拉曼 (Anand Rajaraman) / 厄尔曼 (Jeffrey David Ullman)
出版社: 人民邮电出版社
副标题: 互联网大规模数据挖掘与分布式处理
原作名: Mining of Massive Datasets (2/e)
译者: 王斌
出版年: 2015-7-1
页数: 372
定价: CNY 79.00
装帧: 平装
丛书: 图灵程序设计丛书
ISBN: 9787115395252

豆瓣评分

7.3

27人评价

5星

29.6%
4星

55.6%
3星

3.7%
2星

3.7%
1星

7.4%

评价:

内容简介 · · · · · ·

本书由斯坦福大学“Web 挖掘”课程的内容总结而成，主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等。其中每一章节有对应的习题，以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。

大数据的创作者 · · · · · ·

Anand Rajaraman 作者
王斌译者

作者简介 · · · · · ·

Jure Leskovec

斯坦福大学计算机科学系助理教授，研究方向是大型社交和信息网络的数据挖掘。他的研究成果获得了很多奖项，如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship，还获得了很多最佳论文奖，同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《麻省理工科技评论》《连线》、NBC、BBC等流行的社会媒体刊载。他还创建了斯坦福网络分析平台（SNAP，http://snap.stanford.edu）。Twitter账号是@jure。

Anand Rajaraman

数据库和Web技术领域权威，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman的职业生涯非常成功：1996年...

(展开全部)

Jure Leskovec

Anand Rajaraman

数据库和Web技术领域权威，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman的职业生涯非常成功：1996年创办Junglee公司，两年后被亚马逊以2.5亿美元收购，Rajaraman被聘为亚马逊技术总监，推动亚马逊从一个零售商转型为零售平台；2000年与人合创Cambrian，孵化出几个后来被谷歌收购的公司；2005年创办Kosmix公司并任CEO，该公司于2011年被沃尔玛集团收购，Rajaraman被聘为沃尔玛负责全球电子商务业务的高级副总裁。Rajaraman生于印度，在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。Twitter账号是@anand_raj。

Jeffrey David Ullman

美国国家工程院院士，计算机科学家。早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。他是ACM会员，曾获SIGMOD创新奖、高德纳奖、冯诺依曼奖等多项科研大奖；他是“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作的合著者；麾下多名学生成为了数据库领域的专家，其中最有名的当属谷歌创始人Sergey Brin；本书第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

目录 · · · · · ·

第1章数据挖掘基本概念　　1
1.1 数据挖掘的定义　　1
1.1.1 统计建模　　1
1.1.2 机器学习　　1
1.1.3 建模的计算方法　　2
1.1.4 数据汇总　　2
· · · · · · (更多)

"大数据"试读 · · · · · ·

本章为全书的导论部分，首先阐述数据挖掘的本质，并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理（Bonferroni’s principle），该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想，它们未必都属于数据挖掘的范畴，但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e...

第一章：数据挖掘基本概念

· · · · · · (查看全部试读)

原文摘录 · · · · · · ( 全部 )

数据挖掘是数据模型的发现过程，统计学家认为数据挖掘就是统计模型的构建过程，而这个统计模型指的是可见数据所遵循的总体分布。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。当挖掘的目标能够更直接的描述，机器学习方法并不成功。数据建模方法可以描述为下面两种：对数据进行简洁的近似汇总描述，从数据中抽取出最突出的特性来代替数据并将剩余内容忽略。贝叶斯网络可以利用寻找对象间的最强统一依赖来表示所有统计关联，从而表示出对象之间的复杂关系。哈希函数h的输入是一个哈希键值，输出是一个桶编号。哈希函数的一个直观性质就是把它们将哈希键值随机化，如果哈希键值随机的从某个合理的可能的哈希键分布中抽样而成，那么函数h将会把数目近似相等的哈希键值分配到每个桶中。最常见的哈希函数就是h(x) = x mod B， B一般取素数。磁盘组织成块结构，每个块是操作系统用于在内存和磁盘之间传输的最小数据单元。相对于内存读取一个字的时间，磁盘读取延迟大概要慢5个数量级。我们可以将相关的数据组织到一个磁盘的单个柱面上，因为所有块集合都可以再磁盘中心的固定半径内可达，所以不通过移动磁头就可以访问，这样每块的时间可以小于10ms。自然对数的底e，e是将x趋于无穷大时候，(1+1/x)^x的极限，大概是2.72。 e^x的泰勒展开公式：e^x = {i=0~@}x^i/i! x从0-无穷大，x的i次方除以i的阶乘的和，可以想象因为i的阶乘增长的比x的i次方要快，所以这个数列一定会收敛。幂定律：两个变量在对数空间下呈现出线性关系，这也是长尾的数学模型。 x和y的幂定律可以表示为logy = b+alogx (查看原文)

Stefanie 2赞 2012-10-12 11:21:10

—— 引自第15页
For example, at s = 0.8, 1 - (0.8)^5 is about 0.328 (查看原文)

vancexu 2012-07-25 09:50:18

—— 引自第71页

> 全部原文摘录

丛书信息 · · · · · ·

　　图灵程序设计丛书(共112册)，这套丛书还有《Flink基础教程》《挑战程序设计竞赛》《大师谈游戏设计》《机器学习实战》《挑战程序设计竞赛2 算法和数据结构》等。

喜欢读"大数据"的人也喜欢 · · · · · ·

: 命令行中的数据科学 7.6

: 云计算与分布式系统 5.4

: Python数据挖掘入门与实践 7.5

: 图解性能优化 7.1

: 自制编译器 8.2

: 征服C指针 8.3

: FPGA原理和结构 8.7

: 图解基础设施设计模式 7.1

: 信息检索导论 9.0

: 用Python写网络爬虫 6.8

我来说两句

短评 · · · · · · ( 全部 13 条 )

大数据的书评 · · · · · · ( 全部 18 条 )

热门只看本版本的评论

积攒工分的XYZ 2015-04-08 20:30:09 Cambridge University Press2011版

本书需要配合课程进行学习

看到好多人说这本书是大纲，是目录，没啥内容，讲的浅。那就对了。本书是Stanford CS246课程MMDS使用的讲义，还有配套的Slides和HW，所以观看本书请配套课程进行学习，同时coursera上也有配套的课程。 See more detail: http://www.mmds.org/ (展开)

2回应

sned_comer 2015-08-06 00:14:36 人民邮电出版社2012版

真正讲“大数据”处理思路的书

我真的不能忍受一帮子没读过此书，没写过代码，没搞过大数据的外行人在这边乱喷这本书。对豆瓣这本书的评价实在是太失望了。这是我读到的第一本真正讲“大数据”思路的书。面对海量数据的时候，我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候，你就得考... (展开)

5回应

筱兮 2015-11-10 20:45:43 Cambridge University Press2011版

中译版彻底把这本书给毁了

很差是给中译版的。本书的中译版是中科院计算所的王斌老师翻译的，但是翻译的很屎。估计王老师拿到英文稿之后就扔给学生去翻译了，看这翻译水平，实在是不敢恭维。以上纯为发泄心中不满所写。因为我看译者序，说是自己独立翻译，前后持续了七个多月，并历经多次修改。如果... (展开)

0回应

linglongyouzhi 2013-06-14 09:57:25 人民邮电出版社2012版

希望翻译水平提上去

从总体安排来看，书的结构还是不错的。没看过英文的，但是中文版的行文真的不好，磕磕绊绊看了一半以后实在是没有兴趣看后面的了。之前了解的pagerank看了以后了解了，之前不了解的adwords还是不了解， (展开)

0回应

libisthanks 2012-11-27 12:49:01 人民邮电出版社2012版

《大数据》读后重整理

读技术书于我而言就像高中物理老师说的那样：一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书，决定写点东西以帮助多少年之后还有那么一点点记忆。好吧，开写。 1. 总体来说，数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种：数... (展开)

1 1回应

mftian 2013-10-22 17:35:50 人民邮电出版社2012版

读过，或者说飘过

只看了两章，所有真心不好打分。这其实是本数学书，而且是一本入门书。这本书的目标读者不是工程师，而是读研或者读博的学生。如果你本身就有数据挖掘后者机器学习的背景，或者就是很喜欢数学，我还是很推荐这本书的，学习新东西总是很有趣的。 (展开)

0回应

lixi 2013-10-08 17:57:35 人民邮电出版社2012版

晦涩难懂

看有同学说是 stanford的入门课程，按理说应该不是太难。作为初学者来说，本书翻译的实在不敢恭维，看了50多页是一头雾水，很多话实在是晦涩难懂。本书作用入门级课程来说，基本上涵盖了数据挖掘的各个大类，如果想细致研究某个领域的大拿就不用看了 (展开)

0回应

readme 2013-07-25 11:07:51 人民邮电出版社2012版

中文翻译版很差

本来是计划读英文版《Mining of Massive Datasets》的，但看到打折，而且译者在序言中信誓旦旦地说翻译的很用心，就买了中文的。结果读了第一章就读不下去了，中文表述太烂了，很多句子让人产生无限歧义，磕磕绊绊，叫人生厌。因此决定再次放弃这样的中文翻译书。 (展开)

0回应

兴一神境 2016-05-29 15:04:38 人民邮电出版社2012版

翻译的确实不好

这本书其实挺好的，但是真得看英文版。这是我们上课的参考书之一，英文版有的地方没看懂，就打算找个中文版来看。看了中文版发现，这个翻译的水平基本是跟我大四，研一给老师翻译文章的水平一样的，可以看出这本书应该是找学生翻译的，而且是对专业领域还了解不深的学生翻译的... (展开)

0回应

老伐开心 2015-07-29 09:04:07 Cambridge University Press2014版

书名应该改成<Algorithm Analysis: A Data Mining Perspective>

内容是算法分析应该有的套路, 对于Correctness, Running Time, Storage的证明; 讲得很细, 一个星期要讲3个算法, 看懂以后全部忘光大概率要发生. 要是能多给些直觉解释就好了. Ullman的表达绝对是有问题的, 谁不承认谁就是不客观, 常常一句话我要琢磨2个小时, 比如DGIM算法有一... (展开)

0回应

> 更多书评 18篇