关于信息论,入门者能知道什么通俗内容?
这篇书评可能有关键情节透露
我是怀着学习信息论的目的翻开这本书的。
显然,学习新的学科,最经典的方式是打开一本教科书。然而,当我兴冲冲的翻开《信息论与编码》时,我看到的是这个:
MMP……
经过多方检索,发现了早早躺在书架的《信息简史》居然是关于信息论的科普读物,赶紧开始。
读完,收获颇丰。
————————————————
一、关于信息论,我们要明白它要解决的问题是什么。
在一点精确地或近似地复现在另一点所选取的信息。——克劳德·香农
很好理解,在对话时,传递信息的目的就是将一方的想法传递给另一方,即「在我的脑中精确或近似地复现在你脑中所选取的信息」。因而,信息论和密码学本质上是一件事。密码的本质目的,也是使信息从一处向另一处转移,只不过是多施加了保护而已。
信息论的诞生背景,恰好是二战时盟军破译德国情报部门的Enigma密码。(有兴趣的话,可以看电影《模拟游戏》,以阿兰·图灵为主角讲述该历史故事)密码系统的特点是什么呢?就是都需要使用「密钥」。密钥可能是某个词、某本书或者更复杂的东西。但不管是什么,它都是发送者和接受者共享的一个字符的来源。在香农看来,密码系统由以下几部分组成:有限数量的可能讯息(但有可能极大,比如所有中文能表达的意思)、有限数量的可能密文、以及两者相互转换所用的有限数量的密钥,每个密钥都有相应的出现概率。
书中没有提密码学的具体细节。不过,香农在研究密码学的报告中,首次提出了信息论的概念。
————————————————
二、信息论中的「信息」是什么意思?
信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红色」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从老王这里复现到老张这里。至于「red」在老王这里代表「红色」而在老张那里代表「绿色」,不是信息论关心的事情。
在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
在做讨论某个问题的时候,我们首先要明确对象究竟是什么,给它一个清晰的定义与边界。
————————————————
三、信息传递的结构是什么?(其实按信息论的说法,不是「传递」,而是「复现」)
信息传递的过程(即通信系统)包括5个要素:
信源:产生讯息的人或机器。
发送器:对讯息执行某种操作(即对讯息编码),以得到是适当的信号。
信道:传输信号所使用的媒介。
接收器:执行发送器的逆操作,对讯息解码,或从信号中提取出信息。
信宿:接受讯息的人。
以你我谈话为例。其对应关系为:
信源——我
发送器——我的声带
信道——空气
接收器——你的耳朵
信宿——你
此外,在香农的理论中,还有一个概念:「噪声」。
噪声涵盖一切会削弱信号的东西,比如多余的附加信号、明显的错误、随机干扰、干涉等等。这些噪声有的可以事先预测,有的则不可以。
如果想要在一个信道上传递跟过的信息,工程师的做法往往是增大信源的输出功率。但是,这种方法存在问题。因为一次又一次的放大信号,只会导致噪声的逐渐积累。
对此,香农提出的解决方法是,用额外的符号进行纠错。举例来说,write和right的发音相同,当单一传送语音write的时候,接受方并不知道是write还是right。但如果加上write with your hand,接受方就明确必须是write。这就是用额外的符号纠错的方法。(BTW,在中文中,这种现象更明显,因为汉字发音相同的现象太过广泛了。)
但香农并不止于此,他将统计概率融入了信息论的结构中,彻底确立了信息论应用数学的属性。香农发现,每个讯息与下一个符号之间既不是决定论(下一个符号可以被精确算出),也不是完全随机(下一符号完全不受上一讯息的影响),而是由一组概率决定。举例来说,在发送英文信息时,t后面出现h的概率,就比出现q的概率高,因为th是英文中常见的字幕组合,而tq则不是。这就是讯息的「统计结构」。
香农发展了讯息对下一符号的概率关系,提出了不同位阶的关系。
零阶近似:即每个字符与其他字符之间不存在关系,但各自出现的频率符合英语中字母出现的频率,单词长度也接近真实英语单词的长度。
例如:XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD。
二阶近似:不仅单个字母,双字母组合的出现的频率也符合英语的情况。
例如:ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN DILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE。
三阶近似:即三字母组合。不举例了。
一阶单词近似: REPRESENTAING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HADE THESE.
二阶单词近似:双单词组合以英语中「期望」(数学概念)的频率出现,也就不会出现「to of」的情况。
举例:THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF HTIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.
可以看出,随着阶数的上升,字符串看起来越来越像真正的英语了。所以,这可以说明,讯息可以看成一个随机过程的结果。
这时,我们就来到的信息论的核心:如何计量一个信息的信息量?
————————————————
四、如何定义一个信息量的大小?
香农进一步的得出结论:信息量=不确定性=选择。
如何理解?以英语为例。英语中的符号有26个字母,那么每个2字单词的生成,实际上就是在26个字母中选择2个。比如at这个单词,就是从26个字母中先选出a,再从26个字母中选出t。也就是at这个单词,是消除了第一个字母的26种可能的不确定性,和第二个字母的26种可能的不确定性。因此,一个信息的作用,就在于消除我们在不知道这个信息时所存在的不确定性。这也就是「信息量=不确定性=选择」的结论由来。
香农选取了一个最简单的情况,就是可能的符号的数目为2(在英文的情况就是,字母表中只有2个字母)时,计算信息量的公式:
H = -∑pi log2(pi)
其中pi是指可能讯息出现的概率。比如在一个2位的字符串「黑桃A」中,第1位字符,可能出现「黑桃」的概率是25%,出现其他花色的概率是75%。则p1(即i=1)为25%。第2位字符,出现A的概率是50%,出现其他数字「2」(假设一共只有2个数字)的概率为50%。则p2为50%。那么「黑桃A」所代表的信息量 H = - [log2 (25%)+ log2(50%)]= -[(-2)+(-1)]= 3 ,单位是bit。
这里,我们就要碰到一个新概念:「冗余」。
什么叫冗余呢?举例来说,「我今天晚上吃了晚饭」这句话中,「晚上」显然是多余的,删掉它对表达这句话的含义没有任何影响。「晚上」在这句话中,就是「冗余」。
英语中存在大量的冗余,比如:
if u cn rd ths
u cn gt a gd jb w hi pa!
你是不是能读懂这句话?
(If you can read this, you can get a good job with high pay!)
如果一个字母能够根据先前的内容猜出来,它就是冗余的;既然它是冗余的,它就没有提供新的信息。能够被猜出来=非随机。因此,反过来说,随机讯息承载了更多的信息量。
所以,很多信息实际上都存在着冗余,这也就带来了压缩的可能。压缩视频就是这么来的。在一个视频中,镜头不可能每一帧都是完全不同的图片,第23帧和第24帧中的内容,必然大部分是相同的,只有小部分的像素点发生了变化(就好象在镜头中,移动的是人,而背景是固定不变的)。那么完全分别描述23帧和24帧就存在了大量的冗余,而压缩的方式,就是把24帧中与23帧不一样的部分写入信息,剩下等都同23帧。于是视频文件就被压缩了。
————————————————
五、信息论与控制论的关系。
这里就要提到另一个信息学家——诺伯特·维纳。
维纳发明了控制论(cybernetics)。什么是控制论呢?
控制论研究的对象是信息反馈系统,我们常说的正反馈、负反馈就是控制论的内容。举例来说,抽水马桶就是典型的反馈系统。当按下开关后,水流空后,马桶开始注水。浮物随着水面逐渐升高而升高,直到顶住阀门。水面升高到一定程度后,浮物向上顶住阀门,阀门关闭,便不再注水。也就是说,将水面的高度和注水的开关相关联,以保证不会溢出。这就是一个反馈系统,即将水面的高度信息反馈给开关。
不难看出,控制论也是在讨论信息的一门学问。
————————————————
六、信息论与其他学科的关系。
1 博弈论
在1950年,一次维纳、香农和冯·诺伊曼共同参加的会议中,冯·诺伊曼正在发明博弈论,即在不完全信息的情况下,如果决策的数学。
2 生物
DNA转录成蛋白质,蛋白质构成个各种各样的生物组织,是典型的信息传递。在此基础上,理查德·道金斯提出了模因(meme)的概念,即文化的传播。
3 物理
事实上,香农的信息论的思路来源,恰恰是物理学中研究随机过程的方法论和术语。而信息论中不确定性的概念,也就是所谓的「信息熵」。
熵这个物理学概念在此不做过多解释,简单而言,就是概率在物理学熵的等价物。在定义中,物质按照有序状态存在的概率很低,(比如墨水中墨集中在一侧,水集中在另一侧),因而其熵也很低。
熵与信息有什么关系呢?试想,我们将一群人混在一起。此时,他们混乱的站立,他们的熵很高。我们想把所有男性放在左侧,女性放在右侧,达到一种熵低的状态,此时就需要有人进行筛选,就需要信息。这个筛选的人,在物理上称为「麦克斯韦尔妖」(Demon)。在小明走到麦克斯韦尔妖面前时,麦克斯韦尔怎么确定小明应该去左侧还是去右侧呢?这时候,就需要输入信息,即小明是男还是女。这,就将信息论与物理联系在一起。
4 语言学
语言本身就是人类用以传递信息的工具。香农的研究正好是与语言学家爱德华·萨丕尔的研究相关。只不过,香农走了更有形的道路。
————————————————
七、随机
信息论重新定义了随机的概念。它的推导过程如下:
我们仅考虑数学层面,我们如何定义一个数字是随机的?比如,0000,显然不像是一个随机的,但是010101,也不像。为什么呢?因为他们都某种「模式」。比如,「0000」,可以描述为「4个0」,而「010101」,可以描述为「3个01」.在「4个0」和「0000」包含的信息量相同(如我们前文所述),而从字符上,「4个0」比「0000」少一个字符。也就是说,「0000」可以被更简单的模式表述,这样的数,就不能叫随机数。所以,随机,指的是不能用算法(即模式)更简单表达的数。比如说「π」,虽然是无线不循环的无理数,看似不能用「4个0」这种方式描述。但是,我们可以用一个定义好的计算机程序算出「π」,也就是说「π」是可计算的,因此,「π」不是随机数。
结合我们前面的概念,可以发现,随机数是没有冗余的,也不可能被压缩。
BTW,这里还有一个概念,叫「正规随机序列」:从长期平均情况来看,每个数字都与其他数字一样常见,出现概率为十分之一;同时,每两个数字出现的概率都是百分之一;每三个数字等以此类推。π就是一个正规数。
————————————————
八、余谈
我基本忽略了前面精彩的非洲鼓的故事,原因在于,作为一个语言学出身的人,这部分知识(语素、信息、语法结构的关系)早已熟悉,读起来没什么收获,也就没啥可写的。
虽然我标题写的是「信息论的入门」,但实际上,读完这本书离入门还有十万八千里。这本书能让你明白,为什么信息论的所有教材都是铺天盖地的数学,明白为什么有的人说信息论是一门纯应用数学的学科。
最后想说的是,作者每一章后面都有几十个脚注,足见其用心与演进。这本书不是国内哪些张口就来的认知升级,而是一个诚恳的作家7年的呕心之作,值得一读。