内容简介 · · · · · ·
《数学之美》内容简介:几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,并被热情的读者广为传播,得到高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣,才真正明白“数学是科学的皇后”这句名言。文津图书奖科普获奖书,Google黑板报百万点击!
今年,作者吴军博士几乎把所有的文章都重写了一遍,为的是能把高深的原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。经过改写和重构后,《数学之美》在整体和细节的度上控制得更好。希望读者通过具体的例子学到的是思考问题的方式,学会如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。同时书中也留了很多问题给愿意钻研的人做进一步深入思考。
海报:
作者简介 · · · · · ·
吴军博士,现任腾讯公司主管搜索、在线广告和云计算基础架构的副总裁,毕业于清华大学(本科、硕士)和美国约翰·霍普金斯大学(博士)。在清华大学和约翰·霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。
吴军博士于2002年加入Google公司。在Google,他和Amit Singhal(Google院士,世界著名搜索专家)、Matt Cutts(Google反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得Google工程奖。2003年,他和Google全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google期间,他还领导了许多...
吴军博士,现任腾讯公司主管搜索、在线广告和云计算基础架构的副总裁,毕业于清华大学(本科、硕士)和美国约翰·霍普金斯大学(博士)。在清华大学和约翰·霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。
吴军博士于2002年加入Google公司。在Google,他和Amit Singhal(Google院士,世界著名搜索专家)、Matt Cutts(Google反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得Google工程奖。2003年,他和Google全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google期间,他还领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了当时公司首席执行官埃里克·施密特和创始人谢尔盖·布林的高度评价。
吴军博士在国内外发表过数十篇论文,并获得和申请了十余项美国和国际专利。他撰写的《浪潮之巅》一书深受业界的好评。他于2007年起担任风险投资基金中国世纪基金的董事。2011年起,当选为约翰·霍普金斯大学工学院董事会董事,并在该校的国际事务委员会担任顾问。他是国家重大专项“新一代搜索引擎和浏览器”项目的总负责人,从2012年起任职工业与信息化部的专家和顾问。
目录 · · · · · ·
序言1
序言2
前言
第1章 文字和语言 vs 数字和信息
第2章 自然语言处理 — 从规则到统计
第3章 统计语言模型
第4章 谈谈中文分词
第5章 隐含马尔可夫模
第6章 信息的度量和作用
第7章 贾里尼克和现代语言处理
第8章 简单之美 — 布尔代数和搜索引擎的索引
第9章 图论和网络爬虫
第10章 PageRank — Google的民主表决式网页排名技术
第11章 如何确定网页和查询的相关性
第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础
附录
后记
索引
· · · · · · (收起)
"数学之美"试读 · · · · · ·
豆瓣成员常用的标签(共761个) · · · · · ·
喜欢读"数学之美"的人也喜欢 · · · · · ·
书评 · · · · · · (共107条)
我来评论这本书-
七哥 (别懒了,再懒,毕业就来了)
信息的度量 一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。 信息量 = -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),(Pr)2012-06-03 17:30
-
七哥 (别懒了,再懒,毕业就来了)
马尔可夫 如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S 在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为: P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1) 其..2012-06-04 21:10
马尔可夫如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S 在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi 的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…(当然,也可以假设一个词又前面N-1 个词决定,模型稍微复杂些。)接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)。模型我和 Google 中国的工程师们一同总结了这么几个结论:1. 一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。)2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。)3. 大量准确的数据对研发很重要。4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。预测最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。迭代法迭代算法 GIS(generalized iterative scaling) 的迭代 算法。GIS 的原理并不复杂,大致可以概括为以下几个步骤:1. 假定第零次迭代的初始模型为等概率的均匀分布。2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们便大。3. 重复步骤 2 直到收敛。回应 2012-06-04 21:10
-
信息的产生、传播、接收和反馈构成了最基本的通信模型。 概念的第一次概括和归类开始了。在中国的象形文字中,“日”本意为太阳,但是它同时又是太阳从升起到落山再到升起的时间周期,也就是一天。在古埃及的象形文字中,读音相同的词可能用同一个符号记录。有木有发现和今天接触的聚类有点相似呢? 文字按照意思来聚类,最终会带来一些歧义,此时解决这个问题的最好办法是依靠上下文。这个让我想到了我们.. (2回应)
2013-05-16 21:33
信息的产生、传播、接收和反馈构成了最基本的通信模型。 概念的第一次概括和归类开始了。在中国的象形文字中,“日”本意为太阳,但是它同时又是太阳从升起到落山再到升起的时间周期,也就是一天。在古埃及的象形文字中,读音相同的词可能用同一个符号记录。有木有发现和今天接触的聚类有点相似呢? 文字按照意思来聚类,最终会带来一些歧义,此时解决这个问题的最好办法是依靠上下文。这个让我想到了我们大三学的编译原理,里面有讲文法,句子之类的。这样看来,今天的这些模型都是从生活中得来了,所以生活中要处处留心咯!嘿嘿 不同的文明,因为地域的原因,历史上相互隔绝,便会有不同的文字,那么不同文明下的人交流就需要沟通,计算机上叫通信吧?此时就需要翻译。此时有句很重要的句子,翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。也就是说,文字只是信息的载体,人们可以用不同的载体表达相同的信息,于是用其他载体(数字)存储信息也应运而生了。 罗塞塔石碑的破译,有2点指导意义: 1. 信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原来的信息就不会丢失。 2. 语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。此处我的理解是在翻译过程中,如果一个句子只是用一种语言表达,那么我们个人的理解会不同,造成翻译偏离原来的意思,如果用多个语言表达,可能更有利于翻译者把握其意思,理解对不对呢? 当远古“信息爆炸”导致人们的头脑装不下这些信息的时候,文字出现了,那么当人们的财产多到需要数一数才搞清楚的时候,数字出现了。此处书中写的还蛮有趣的。 任何事物的规律性是内在的,并不随它的载体而改变。 在罗马体系的文字中,总体来讲,常用字短,生僻字长。而在汉字中,大多常用字笔画少,而生僻字笔画多,这完全符合信息论中的最短编码原理。这种文字设计其实就是一种编码方法,带来的好处当然是写起来省时间,省材料。 文中提到在古代,两个人讲话说得快是一个宽信道,无需压缩,所以古代的口语应该和现代人白话差不多。书写来得慢是一个窄信道,需要压缩,这就是为什么流传下来的古言文非常简洁,却非常难懂。 将日常白话口语写成精简的文言文本身是信道压缩的过程,而将文言文解释清楚是解压缩的过程,很有趣吧? 本文中提到了《圣经》,《圣经》的写作持续了很多世纪,后世的人在补充时,看到的是几百年前甚至上千年前原作的抄本,在抄写的过程中难免有抄写错误,于是犹太人发明了一种检验方法,他们把每一个希伯来字母对应于一个数字,这样每行文字加起来便得到特殊的数字,这个数字便成为了这行的校验码,列类似于此,这背后的原理和我们今天的各种校验是相同的。 我们的祖先遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。 刚看完第一章,洗洗睡了,作者写的如此浅显易懂,很容易理解,又有趣。2回应 2013-05-16 21:33
论坛 · · · · · ·
| 《数学之美》勘误表 | 来自叶卡 | 9 回应 | 2013-04-21 |
| 数学很美,就是坑爹的贵 | 来自萨鲁曼 | 9 回应 | 2013-01-11 |
| 我好奇的是,数学很差的人是否可以看懂这本书? | 来自古古凉 | 37 回应 | 2013-05-04 |
| 《数学之美》荣获国家图书馆第八届“文津奖”,每... | 来自叶卡 | 2013-04-24 | |
| 尼玛,数学真的很开发大脑! | 来自子宫的梦 | 1 回应 | 2012-12-31 |
> 浏览更多话题
在哪儿买这本书?
以下豆列推荐 · · · · · · ( 全部 )
- 豆瓣评星很高很强大【科学】 (二手红颜)
- 所谓知识的另一种 (自娱者小五)
- IT、商业与思想@虎嗅网1 (潘乱)
- 趣味要这样炼成。 (費斯基)
- 2012荐书清单 (Fenng)
谁读这本书?
喜欢这本书的人常去的小组 · · · · · ·

- Python编程 (32378)

- Github优秀开源项目 (1980)

- LISP (3773)

- Vim (11568)

- 数学 Mathematics (23749)

- 机器学习与模式识别 Re... (2489)

- 数据挖掘 (7534)

- 算法与数据结构 (6047)
二手市场
订阅关于数学之美的评论:
feed: rss 2.0















Vsymbol (V)
2012-07-06 17:33 82人收藏
yawiki
2012-06-07 19:06 8人收藏
张初一
2012-05-25 14:19 3人收藏
破竹 (好人就要紋個大花臂)
2012-09-24 13:26 1人收藏