第三章
- 章节名:第三章
本章主要讲述了数据为我们提供了解决问题的新方法,数据包含的信息可以帮助我们消除不确定性(这也是大数据的本质),数据之间的相关性可以取代原有的因果思维方式,这也是大数据思维的核心。
人类思维的演进:①从欧几里得的《几何原本》,几何学一切定理都由定义和简单得无法证明的5条公理或者间接地演绎得出。这套逻辑推理的公理化系统对于西方整个思维方法都有影响(几何学,数学,自然科学,法律等等)。②到托勒密,将各种天文现象的共性,用最基本的,无法再简化的原型(meta model)来描述,核心思想:首先,有一个简单的元模型,此模型可以是假设的,基于此构建复杂的模型,其次,整个模型要与历史数据吻合。③再到牛顿:世界万物是运动的,而且这些运动遵循着确定性的规律,这些规律又是可以被认识的。同时指出任何正确的理论从形式上都是简单的,又有非常好的通用性。这即是机械思维,可以概括为确定性和因果关系。但是,这套思想,在信息时代,它的局限性越来越明显。。
张首晟教授喜欢用三个公式概括人类最高文明成就:
爱因斯坦质量转换公式。
量子力学测不准原理。
熵的定义。
世界存在很多事情是难以用确定公式或者规则来表示的,但并非无规律可循,通常可以用概率模型来描述。在概率论的基础上,香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来。
讲述了熵这一种全新的世界观,信息熵用来表示信息的不确定性,熵越大,信息量越大,消除不确定性需要引入信息,引入多少,由熵的大小决定。反映出信息时代的方法论:谁掌握了信息,谁就能获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
理论知识:
1)香农第一定律:亦称香农信源编码定律,对信源发出的所有信息设计一种编码,那么编码平均长度一定大于该信源的信息熵。
2)香农第二定律:信息传播的速率不可能超过信道的容量。这个理论可以适用于自然界其他方法,比如我们常说做生意要依靠人脉,其实人脉就是人与人交往的带宽,如果人脉不够,发出的信息和获得的信息都有限,生意一定做不大。
3)Huffman提供了一个最优的编码方法:只要把最短的编码分配给最常见的汉字即可,又称Huffman编码,可以视为是香农第一定律的补充。这与经济学上的Gilder定律是一致的,即尽可能地采用便宜的资源,尽可能节省贵的资源同出一辙。
4)最大熵原理:当我们要对未知的事件寻找一个概率模型时,这个模型应该满足我们所有已经看到的数据,但是对未知的情况不要做任何主观的假设。
5)交叉熵:当两个数据源完全一致时,它们的交叉熵等于零,当它们相差很大时,交叉熵也很大。所有数据驱动的方法,数据要有一致性。
6)量子力学测不准原理:也就是说,像电子这样子的基本粒子的位置的测量误差和动量的测量误差的乘积不可能无限小。这与机械思维的世界确定性是想违背的,为什么会有这样子的现象?因为我们测量活动本身影响了被测量的结果。
作者其他观点:
1)这些互联网公司的竞争,表面上看是技术竞争,其实更准确的是数据层面的竞争。
2)今天,Google至少有三四成的工程师,每天的工作就是处理数据。
作者核心观点:
信息时代思维的变革,从因果关系转移到数据之间的相关性。数据所包含的信息可以帮助我们消除不确定性,而数据之间的相关性可以取代原来的因果关系,帮助我们得到想知道的答案,这便是大数据思维的核心。
scue对本书的所有笔记 · · · · · ·
-
第一章
观点1:数据是人类建造文明的基石。 观点2:从某种程度上讲,获得和利用数据的水平,反映出文...
-
第二章
理论1:什么是机器智能?通过图灵测试:让一台机器人和一个人坐在幕后,让一个裁判同时与幕后...
-
第三章
-
第四章
从数据中寻找一些规律,可以帮助我们找出数据中有价值的信息,比如美国通过家庭用电大数据来...
-
第五章-大数据和智能革命的技术挑战
大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都...
说明 · · · · · ·
表示其中内容是对原文的摘抄