窗边的老豆对《数学之美》的笔记(7)

数学之美
  • 书名: 数学之美
  • 作者: 吴军
  • 页数: 272
  • 出版社: 人民邮电出版社
  • 出版年: 2012-5-1
  • 第1页
    给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印剧体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。 如果S表示一连串特定顺序排列的词w1,w2,…“,wn,换句话说,S可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的5的概率用PS来表示。利用条件概率的公式,S这个序列出现的概率等于每一个词出现的率相来,于是PC可展开为 PG)=P(w1)P(w2w1)P(w31 w1 w2).P(wnlw1 w2.wn-1) 其中P(w1)表示第一个词w1出现的概率;P(w2lw1)是在已知第一个词的前提下,第个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。 从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词w的出现率只同它前面的词wi1有关(即马尔可夫假设),于是问题就变得很简单了。现在,S出现的概率就变为 PG)=P(w1)P(w2iw1)P(w31w2)---p(wilwi-1) (当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。) 接下来的问题就是如何估计P( willi-1)。现在有了大量机读文本后,这个问题变得很筒单, 只要数一数这对词(wi-1,wn)在统计的文本中出现了多少次,以及w-1本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了P( willi1)=P(wi-l,wo/P(wi-1)。 也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器密译等问题。其实不光是常人,就连很多语官学家都曾质疑过这种方法的有效性,但事实证明,统计语官模型比任何已知的借助某种规则的解决方法都有效。比如在 Goole的中英文自动证中,用的最重要的就是这个计语直型。
    引自第1页

    2018-03-13 17:36:39 回应
  • 第9页
    一本玉十万主的中文 信息量大约是250万比特。如果用一个好的算法压缩一下,整本书可以存成一个320KB的文件,我们直接用两字节的国标编码存储这本书,大的需要1MB大小,是压缩文件的三倍, 这两个数量之间的差距在信息论中叫做冗余度。
    引自第9页
    2018-03-13 17:49:07 回应
  • 第12页
    最筒单索引的结构是用一个很长的二进数表示一个关健字是否出现在每篇文献中。有多少篇文就,就有多少位数,每一位对应一信文献,1代表相应的文就有这个关健字,0代表没有。比如关健字“原子能”对应的二进制数是0100100001100001-,表示第二、第五,、第九、第十、第十六篇文献包含着个关使字。注意,这个二进制数非常之长。同样,我们假定“应用”对应的二进制数是0010100110000001.那么要找到同时包含“原子能”和“应用”的文献时,只要将这两个二进制数进行布尔运算AND。根据上面的真值表表,我们知道运算结果是0000100000000001…。表示第五篇,第第十六篇文献满足要求
    引自第12页
    2018-03-13 17:53:59 回应
  • 第36页
    讲座结東前,我和 Google中国的工程师们一同总结了这么几个结论 1,一个正响的败学横应当在形式上是简单的。(托物的模显然太复杂。) 2.一个正确的模型在它开始的时候可能还不如一个精厘细过的错误的横型来的准确 ,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准。) 3,大量准确的数据对研发很量要。 4。正响的模量也可能受音干扰,而显得不准响;这时我们不应该用一种离合的修正方法来弥补它,而是线到音的根源,这也许能通往置大发现。
    引自第36页
    2018-03-13 18:40:44 回应
  • 第41页
    最大填原理指出,当我们要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,面对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为为当我们遇到不确定性时,就要保留各种可能。
    引自第41页
    2018-03-13 18:43:09 1人喜欢 回应
  • 第50页
    我们可以把上述的有向图看成一个网络,它就理贝叶斯网)其中每个圆圈表示一个状态。状态之间的连线表示它们的因果关系。比如从心血管疾病出发到吸烟的线表示心血管疾病可能和吸烟有关。当然,这些关系可以有一个量化的可信度(beie,用一个概率搞述 我们可以通过这样一张网络估计出一个人的心血管疾病的可能性。
    引自第50页
    2018-03-13 18:45:58 回应
  • 第53页
    假定我们存储一亿个电子邮件地址,我们先建立一个十六亿二进制(比特),即两亿字节的向量,然后将这十六亿个二进制全部设置为导。对于每一个电子邮件地址X,我们用八个不同的随机数产生器(FF2,,F8)产生八个信息指纹(n,2,,B)。再用用一个随机数产生器G把这八个信息指纹映射到1到十六亿中的八个自然数g1,g2,g8a现现在我们把这几个位置的二进制全部设置为一。当我们对这一亿个 email地址都进行这样的处理后。一个针对这些些 email地址的布隆过滤器就建成了。(见下图)
    引自第53页
    2018-03-13 18:49:52 回应

窗边的老豆的其他笔记  · · · · · ·  ( 全部45条 )