第1 章 文字和语言 vs 数字和信息
1,信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义。(感谢2000多年前古埃及人在罗塞塔石碑上用三种文字记录了托勒密五世登基的诏书。) 引自 第1 章 文字和语言 vs 数字和信息 还挺有意思的,看到信息安全我第一时间想到的会是隐私安全。不过信息安全的概念比我想象中要大很多,完整性原来也算在其中。
当然,早期数字并没有书写的形式,而是掰指头,这就是我们今天使用十进制的原因。毫无疑问,如果我们有十二个指头,那今天我们用的一定是十二进制。 引自 第1 章 文字和语言 vs 数字和信息 不过想一想,现在人类都习惯十进制的原因,难道不是阿拉伯数字吗。
于是犹太人发明了一种类似于我们今天计算机和通信中校验码的方法。他们把 每一个希伯来字母对应于一个数字,这样每行文字加起来便得到一个特殊的数字,这个数字便成为了这一行的校验码。同样,对于每一列也是这样处理。当犹太学者抄完一页《圣经》时,他们需要把每一行的文字加起来,看看新的校验码是否和原文的相同,然后对每一页进行同样的处理。如果这一页每一行和每一列的校验码和原文完全相同,说明这一页的抄写无误。如果某行的校验码和原文中的对应不上,则说明这一行至少有一个抄写错误。当然,错误对应列的校验码也一定和原文对不上,这样可以很快找到出错的地方。这背后的原理和我们今天的各种校验是相同的。 引自 第1 章 文字和语言 vs 数字和信息 总的来讲,这个校验码的科普是很到位。
不过,相比较而言,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有完备的编解码规则,而后者则不具备这个特性。因此,任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。虽然正统而教条的语言学家倾向于把这些例外作为“病句”,并且有的人毕其一生的精力来消灭病句,纯化语言,但是事实证明这种工作是徒劳的。莎士比亚的作品在他的时代完全是通俗而大众化的,其中包括大量违反古语法的名句,那个时代就开始有人试图完善(其实是篡改)莎士比亚戏剧。可今天这些语言不但没有消失,反而成了经典,而试图完善他著作的人却早已为大众遗忘。 引自 第1 章 文字和语言 vs 数字和信息 这就是文艺工作目前计算机还做不了的原因,感觉文艺工作是需要一些“错误”的。
这就涉及到一个语言学研究方法的问题:到底是语言对,还是语法对。前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。经过三四十年的争论,最后实践是检验真理的唯一标准,自然语言处理的成就最终宣布了前者的获胜。 引自 第1 章 文字和语言 vs 数字和信息 怪不得NLP只说语料语料的。
44人阅读
AnyOtherSide对本书的所有笔记 · · · · · ·
-
第1 章 文字和语言 vs 数字和信息
-
第2 章 自然语言处理 — 从规则到统计
早期的20多年,即从20世纪50年代到70年代,是科学家们走弯路的阶段。全世界的科学家对计算机...
> 查看全部2篇
说明 · · · · · ·
表示其中内容是对原文的摘抄