迎接新的时代
“大数据”这个词已经流行很久了,但我相信绝大多数人对这个词的真义并不了解,或者说是懒的去了解,现在信息爆炸,资讯丰富,人都浮躁的很。这个看上去与己无关的“大词”,又似乎要认真花点时间了解一下才能懂的概念,有几个人愿意去花ta们“宝贵”的时间去学习。但是恰恰相反,“大数据”将影响我们每一个人,它是正在进行中的新一轮“智能革命”的能源和动力。吴军老师的新书《智能时代》就是介绍这个“大词”的好书。
整本书分为七章
第一章,数据 - 人类建造文明的基石
首先明晰三个概念:信息,数据,知识。尤其是信息和数据,很多人总是把这两个词不加区分的混着用。用一个例子来区分它们,日月星辰的变化在常人看来就是信息,人们知道太阳从东方升起,西方落下。天文观测者会把这些信息用数据的形式记录下来,以便后人查询学习,当数据量足够多了以后,人们就会总结出很多规律用以对未来进行预测,比如开普勒定律,这就是知识。人类对大自然的认识几乎都是这样的过程:收集数据->分析数据->建立模型->预测未知。
到了近现代,很多社会问题也开始大量的依赖数据,但是数据的质量变得很关键。书中举了一个1936年美国大选的例子。当时《文学文摘》向全美发了240万份调查问卷,然后根据这些数据预测兰登将竞选总统成功。但同时有一个叫盖洛普的教授用了5万份调查问卷来分析后认为罗斯福会获胜。结果大家都知道,罗斯福赢了。但为什么更少的数据却更准确呢?原因是《文学文摘》在发放问卷时是根据电话薄里的地址寄送的,在当时拥有电话的都是家境比较好的中上层家庭,他们都是支持兰登的。而盖洛普确是考虑了整个社会中人员的年龄,种族,收入的各种因素,所以他的数据更有代表性。这背后的思想就是统计学。它是大数据时代的重要工具。
第二章,大数据和机器智能
究竟怎么判断机器是不是有了智能?这个判断方式就是图灵测试。图灵在1950年的一篇论文中说道,如果让一个人和一台机器呆在幕后,然后让另一个人同时和他们交流,如果这个人无法区别幕后哪个是机器,哪个是真人,那这台机器就有了智能。从那以后,世界上众多的聪明人都在为让机器具有智能而努力,都在试图让机器可以像人一样思考。但是1968年明斯基在《语义信息处理》中分析了人工智能的局限性。论证了让机器模拟人类思考的这条路走不通。导致之后20年美国政府消减相关研发经费,学术研究一度处于低谷。
事情改变的奇迹发生在2005年,在这一年由美国国家标准与技术研究会举办的翻译软件比赛中,由奥科博士率领的Google翻译团队大比分战胜其他的翻译团队,包括南加州大学,IBM。传统的翻译软件使用的方法是语法匹配,开发人员会根据两种语言编写出上万条语法对应规则。这其实就是试图让机器像人一样去学习外语,让机器像人一样去思考。但是这种方法的效果一直不好。但是Google的翻译方法是基于大数据的,简单说就是首先准备许多的两种语言相对应的已经翻译好的材料(语料库),然后用统计学的方式将要翻译的语句去语料库中找出最合适的翻译结果。当然了,实际的技术要比这个复杂的多。有趣的是,南加州大学的翻译机器就是奥科博士在那里读博士时设计的,用的是同样的方法,但是却同样输的很惨,原因是,Google公司拥有语料库数据是南加州大学的数万倍。这时,大数据的威力显现了出来,这一年也被成为大数据元年。其实在1997年IBM的深蓝战胜国际象棋大师卡斯帕罗夫,2010年IBM的沃森在智力比赛《危险边缘》中大胜真人参赛者,以及最近的Google的AlphaGo在围棋比赛中战胜李世石,所使用的算法思想都是基于数据的。可见大数据的重要性。这里有一个关键的思想转变非常重要 - 把智能问题转化成数据处理问题,从而让机器看起来拥有了智能。
第三章,思维的革命
书中首先简单回顾了自然科学史,从欧几里得,托勒密到牛顿。这段时间的方法论是机械思维。机械思维认为世界万事万物都是有因果关系的,通过对因果关系的学习研究就能找到规律,然后就可以用这个规律来预测未来,从而认为世界是确定的。但是到了近现代,人们发现很多事情是不确定的。比方说在宏观上,世界经济就是无法准确预测的,到处充满了黑天鹅事件。更要命的是在微观领域,在量子科学中,我们世界的基本组成电子,量子,就是不确定的,像幽灵一样,只能用概率描述。这方面最著名的就是海森堡提出的测不准原理。
因果关系的世界观正在慢慢瓦解,这对很多人都是很难接受,也很难理解的。在大数据的世界,相关性正在变得越来越重要。这里有个很有名的例子。美国的一家超市根据过往的销售数据发现,购买了啤酒的顾客很多都会购买尿不湿,然后就根据这个相关性将啤酒和尿不湿的货架放到了一起,果然,两样货物的销量大幅提升。至今也没人能说出来这是为什么。这就是依靠数据,相关性战胜因果性的好例子。书中还介绍了其他一些有趣的案例,包括医学上的新药的研发,Google对搜索算法改进的依据等。但是一个严峻的问题是,我们绝大多数人仍然不敢于接受相关性带来的结果,仍然习惯于去试图找出背后的因果性,这个思想转变需要长久的时间。
第四章,大数据与商业
这章介绍了大量的现代商业和政府依靠大数据解决问题的案例。其中一个美国政府的故事挺有意思
美国是个禁毒国家,但是有很多人会在自己的家里种大麻来卖,这个在很多好莱坞的电影中都能看到。以前这个很难被警察发现,为找出这样的房子,需要的人力成本太高。后来政府发现可以利用每家的用电模式来发现谁家在种大麻,因为普通家庭的用电模式明显不同于大麻种植的房屋。这一下迅速解决的问题。这得益于两点,第一是新式的电表可以做到收集更多人们用电的习惯,不像以前只是每个月一个数字那么简单。第二是政府对数据利用的意识也在逐步的提高。
其他还有很多人们意识不到的地方其实也在使用大数据。比如Google的搜索算法,无人驾驶汽车,我们每天都在使用的各种输入法,语音识别,亚马逊的智能推荐等。
第五章,大数据和智能革命的技术挑战
这里讲了些偏技术的方面问题。包括数据的产生,存储,传输,处理。主要集中在讨论面对大数据如何解决“大”和“快”的问题。过去都是为了目的而收集数据,大数据时代是不预设目标,能收集多少是多少。过去是收集具有代表性的样本,大数据以全集作为样本。从而体现出分布式计算和好的机器学习算法的重要性。
第六章,未来智能化产业
农业。介绍了以色列利用现代数据智能方法,在比我国西部地区还要贫瘠的土地上创造了农业奇迹,成为了“欧洲的厨房”。
体育。介绍了金州勇士这个硅谷的篮球队,如何从2009年倒数第二,一举夺得了15年的总冠军。并且还创造了赛季73胜的NBA历史记录,和连胜54场的记录。关键在于这个球队完全没有买任何大牌球星,反而在2009年以后陆续的卖出了几位外界看来的球队主力。这个奇迹主要得益于球队新的老板基于大数据的分析管理以后,提出的新的三分球打法战术。这和我国的恒大足球队形成了鲜明的讽刺反差
制造业。这个就不用多讲了。现在工厂里都在用机器人取代人。特斯拉的工厂里甚至连一个人都没有。这里的好处其实并不是主要体现在人们以为的节约人力成本,而在于制造业自动化以后,就可以进行信息化,自动的产生数据,这些数据的积累可以提高全产业链的智能水平。
医疗业。IBM的沃森现在完全已经可以胜任中级医生的工作。未来很多医疗资源不足的地方都会使用,并且它的水平还在飞速进步中。未来我们可以在大数据的帮助下,对每一个不同的人开发出独特的药品,实现个性化设计药物。新的基因编辑技术可以大幅的提高人的寿命。新的手术机器人已经开始代替人类给病人手术,而且精细程度更加的高。
法律。美国已经有机器智能律师在取代人类律师的工作,并且完成度更加的好。目前主要集中在初级助理律师领域。
传媒。机器智能已经可以写一些新闻报道,只要集中在财经领域。
我们需要有一个深刻的意识。未来在很多领域,一定是,现有产业+大数据/机器智能=新产业。这都是机会所在的地方。首先大部分产业都会加上大数据变成新产业,其次,不是每一家公司都要从事新技术研发,大数据和机器智能的工具会像水和电这样的资源,由专门的公司提供
第七章,智能革命和未来社会
这章讲了智能革命对社会的影响。好的方面就不多说了,比如改善交通,帮助反恐,提高商品安全,个性化医疗服务。这章关键在于提醒人们机器智能会带来的不好的社会问题。
首先是隐私,现代的大多数人还没有对其有足够的重视,可能是不知道大数据的威力,也可能是低估了机器智能的力量。比如说保险公司,一旦它掌握了个人基因数据或者平时生活习惯数据,它就能对这个人未来的健康状况有个大致的预测,它就完全可以不卖保险给某些人,或者只卖很贵的给某些人。隐私就像自由,只有当人们失去它时,才知道它的宝贵。
其次是工作机会,用不了多久,大量的工作都会被智能机器取代,智能可不像以前那样机器只是取代体力劳动,新的智能机器将要取代的是我们的大量的脑力劳动。目前各国政府仍然无法找到消化那么多将要失去工作的人的新的工作市场。当然有些乐观的人士依据以前的工业革命认为一定会有新的工作机会出现,但是回顾一下历史,这个过程需要半个世纪以上。
最后,对于我们个人,该怎么办呢?不要观望徘徊,加入到这次智能时代的大潮中来。
我的评论。
首先借用书中的一句话:如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。对于人工智能,我相信它一定会让我们的社会变得更好,就像工业革命和信息革命以后人们的生活水平大幅提升一样。各国政府也都提出了相应的发展计划,就连现在的硅谷也不再聊互联网了,开始研究机器智能了。这股浪潮是不可阻挡的。其背后的动力就是大数据,其实很多的现在人工智能所使用的方法算法在几十年以前就有了,但是数据的缺乏让其无法发挥。但是现在到处的传感器,到处的摄像头,人们的电子化生活,一刻不能离身的手机,自动化的工厂,都在疯狂的产生各种各样的数据。我们所熟知的公司比如阿里巴巴,腾讯,百度,滴滴,说到底其实就是数据公司。而且我相信这只是开始,毕竟还有绝大多数的人没有意识到数据的重要性,还有很多的商业场景和生活场景的信息没有数据化,未来这里将会有很多的机会。
但同时,读完这本书后,对于隐私和失业潮这两个问题,真的是感觉在目前的阶段是无解的。方便性和隐私是一对矛盾体,几乎没有人为了隐私而放弃现在的生活方式,去问问有几个人愿意抛弃手机就知道了。国家至今也在这方面无计可施,就算是美国这个信息革命早我们几十年的国家,到现在为止对隐私问题也给不出一个满意的解决方案。现在所有人都是在走一步看一步。大量失业人员的出现其实更严重,但是有趣的是,并没有多少人意识到这点。我以前在工作中做过一些自动化计算的工具,就使得本来专门负责手动计算的工程师转岗了,这其实就是一种失业,而且这可不是对普通的生产工人的冲击,这是对有一定技术能力的人。这本书也提到了医生,律师,记者,编辑,翻译,这些方面正在慢慢被人工智能取代。我们人类引以为豪的大脑正在被人工智能慢慢取代。
我的得到。
不用犹豫了,坚决的投入到这股浪潮中去。
整本书分为七章
第一章,数据 - 人类建造文明的基石
首先明晰三个概念:信息,数据,知识。尤其是信息和数据,很多人总是把这两个词不加区分的混着用。用一个例子来区分它们,日月星辰的变化在常人看来就是信息,人们知道太阳从东方升起,西方落下。天文观测者会把这些信息用数据的形式记录下来,以便后人查询学习,当数据量足够多了以后,人们就会总结出很多规律用以对未来进行预测,比如开普勒定律,这就是知识。人类对大自然的认识几乎都是这样的过程:收集数据->分析数据->建立模型->预测未知。
到了近现代,很多社会问题也开始大量的依赖数据,但是数据的质量变得很关键。书中举了一个1936年美国大选的例子。当时《文学文摘》向全美发了240万份调查问卷,然后根据这些数据预测兰登将竞选总统成功。但同时有一个叫盖洛普的教授用了5万份调查问卷来分析后认为罗斯福会获胜。结果大家都知道,罗斯福赢了。但为什么更少的数据却更准确呢?原因是《文学文摘》在发放问卷时是根据电话薄里的地址寄送的,在当时拥有电话的都是家境比较好的中上层家庭,他们都是支持兰登的。而盖洛普确是考虑了整个社会中人员的年龄,种族,收入的各种因素,所以他的数据更有代表性。这背后的思想就是统计学。它是大数据时代的重要工具。
第二章,大数据和机器智能
究竟怎么判断机器是不是有了智能?这个判断方式就是图灵测试。图灵在1950年的一篇论文中说道,如果让一个人和一台机器呆在幕后,然后让另一个人同时和他们交流,如果这个人无法区别幕后哪个是机器,哪个是真人,那这台机器就有了智能。从那以后,世界上众多的聪明人都在为让机器具有智能而努力,都在试图让机器可以像人一样思考。但是1968年明斯基在《语义信息处理》中分析了人工智能的局限性。论证了让机器模拟人类思考的这条路走不通。导致之后20年美国政府消减相关研发经费,学术研究一度处于低谷。
事情改变的奇迹发生在2005年,在这一年由美国国家标准与技术研究会举办的翻译软件比赛中,由奥科博士率领的Google翻译团队大比分战胜其他的翻译团队,包括南加州大学,IBM。传统的翻译软件使用的方法是语法匹配,开发人员会根据两种语言编写出上万条语法对应规则。这其实就是试图让机器像人一样去学习外语,让机器像人一样去思考。但是这种方法的效果一直不好。但是Google的翻译方法是基于大数据的,简单说就是首先准备许多的两种语言相对应的已经翻译好的材料(语料库),然后用统计学的方式将要翻译的语句去语料库中找出最合适的翻译结果。当然了,实际的技术要比这个复杂的多。有趣的是,南加州大学的翻译机器就是奥科博士在那里读博士时设计的,用的是同样的方法,但是却同样输的很惨,原因是,Google公司拥有语料库数据是南加州大学的数万倍。这时,大数据的威力显现了出来,这一年也被成为大数据元年。其实在1997年IBM的深蓝战胜国际象棋大师卡斯帕罗夫,2010年IBM的沃森在智力比赛《危险边缘》中大胜真人参赛者,以及最近的Google的AlphaGo在围棋比赛中战胜李世石,所使用的算法思想都是基于数据的。可见大数据的重要性。这里有一个关键的思想转变非常重要 - 把智能问题转化成数据处理问题,从而让机器看起来拥有了智能。
第三章,思维的革命
书中首先简单回顾了自然科学史,从欧几里得,托勒密到牛顿。这段时间的方法论是机械思维。机械思维认为世界万事万物都是有因果关系的,通过对因果关系的学习研究就能找到规律,然后就可以用这个规律来预测未来,从而认为世界是确定的。但是到了近现代,人们发现很多事情是不确定的。比方说在宏观上,世界经济就是无法准确预测的,到处充满了黑天鹅事件。更要命的是在微观领域,在量子科学中,我们世界的基本组成电子,量子,就是不确定的,像幽灵一样,只能用概率描述。这方面最著名的就是海森堡提出的测不准原理。
因果关系的世界观正在慢慢瓦解,这对很多人都是很难接受,也很难理解的。在大数据的世界,相关性正在变得越来越重要。这里有个很有名的例子。美国的一家超市根据过往的销售数据发现,购买了啤酒的顾客很多都会购买尿不湿,然后就根据这个相关性将啤酒和尿不湿的货架放到了一起,果然,两样货物的销量大幅提升。至今也没人能说出来这是为什么。这就是依靠数据,相关性战胜因果性的好例子。书中还介绍了其他一些有趣的案例,包括医学上的新药的研发,Google对搜索算法改进的依据等。但是一个严峻的问题是,我们绝大多数人仍然不敢于接受相关性带来的结果,仍然习惯于去试图找出背后的因果性,这个思想转变需要长久的时间。
第四章,大数据与商业
这章介绍了大量的现代商业和政府依靠大数据解决问题的案例。其中一个美国政府的故事挺有意思
美国是个禁毒国家,但是有很多人会在自己的家里种大麻来卖,这个在很多好莱坞的电影中都能看到。以前这个很难被警察发现,为找出这样的房子,需要的人力成本太高。后来政府发现可以利用每家的用电模式来发现谁家在种大麻,因为普通家庭的用电模式明显不同于大麻种植的房屋。这一下迅速解决的问题。这得益于两点,第一是新式的电表可以做到收集更多人们用电的习惯,不像以前只是每个月一个数字那么简单。第二是政府对数据利用的意识也在逐步的提高。
其他还有很多人们意识不到的地方其实也在使用大数据。比如Google的搜索算法,无人驾驶汽车,我们每天都在使用的各种输入法,语音识别,亚马逊的智能推荐等。
第五章,大数据和智能革命的技术挑战
这里讲了些偏技术的方面问题。包括数据的产生,存储,传输,处理。主要集中在讨论面对大数据如何解决“大”和“快”的问题。过去都是为了目的而收集数据,大数据时代是不预设目标,能收集多少是多少。过去是收集具有代表性的样本,大数据以全集作为样本。从而体现出分布式计算和好的机器学习算法的重要性。
第六章,未来智能化产业
农业。介绍了以色列利用现代数据智能方法,在比我国西部地区还要贫瘠的土地上创造了农业奇迹,成为了“欧洲的厨房”。
体育。介绍了金州勇士这个硅谷的篮球队,如何从2009年倒数第二,一举夺得了15年的总冠军。并且还创造了赛季73胜的NBA历史记录,和连胜54场的记录。关键在于这个球队完全没有买任何大牌球星,反而在2009年以后陆续的卖出了几位外界看来的球队主力。这个奇迹主要得益于球队新的老板基于大数据的分析管理以后,提出的新的三分球打法战术。这和我国的恒大足球队形成了鲜明的讽刺反差
制造业。这个就不用多讲了。现在工厂里都在用机器人取代人。特斯拉的工厂里甚至连一个人都没有。这里的好处其实并不是主要体现在人们以为的节约人力成本,而在于制造业自动化以后,就可以进行信息化,自动的产生数据,这些数据的积累可以提高全产业链的智能水平。
医疗业。IBM的沃森现在完全已经可以胜任中级医生的工作。未来很多医疗资源不足的地方都会使用,并且它的水平还在飞速进步中。未来我们可以在大数据的帮助下,对每一个不同的人开发出独特的药品,实现个性化设计药物。新的基因编辑技术可以大幅的提高人的寿命。新的手术机器人已经开始代替人类给病人手术,而且精细程度更加的高。
法律。美国已经有机器智能律师在取代人类律师的工作,并且完成度更加的好。目前主要集中在初级助理律师领域。
传媒。机器智能已经可以写一些新闻报道,只要集中在财经领域。
我们需要有一个深刻的意识。未来在很多领域,一定是,现有产业+大数据/机器智能=新产业。这都是机会所在的地方。首先大部分产业都会加上大数据变成新产业,其次,不是每一家公司都要从事新技术研发,大数据和机器智能的工具会像水和电这样的资源,由专门的公司提供
第七章,智能革命和未来社会
这章讲了智能革命对社会的影响。好的方面就不多说了,比如改善交通,帮助反恐,提高商品安全,个性化医疗服务。这章关键在于提醒人们机器智能会带来的不好的社会问题。
首先是隐私,现代的大多数人还没有对其有足够的重视,可能是不知道大数据的威力,也可能是低估了机器智能的力量。比如说保险公司,一旦它掌握了个人基因数据或者平时生活习惯数据,它就能对这个人未来的健康状况有个大致的预测,它就完全可以不卖保险给某些人,或者只卖很贵的给某些人。隐私就像自由,只有当人们失去它时,才知道它的宝贵。
其次是工作机会,用不了多久,大量的工作都会被智能机器取代,智能可不像以前那样机器只是取代体力劳动,新的智能机器将要取代的是我们的大量的脑力劳动。目前各国政府仍然无法找到消化那么多将要失去工作的人的新的工作市场。当然有些乐观的人士依据以前的工业革命认为一定会有新的工作机会出现,但是回顾一下历史,这个过程需要半个世纪以上。
最后,对于我们个人,该怎么办呢?不要观望徘徊,加入到这次智能时代的大潮中来。
我的评论。
首先借用书中的一句话:如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。对于人工智能,我相信它一定会让我们的社会变得更好,就像工业革命和信息革命以后人们的生活水平大幅提升一样。各国政府也都提出了相应的发展计划,就连现在的硅谷也不再聊互联网了,开始研究机器智能了。这股浪潮是不可阻挡的。其背后的动力就是大数据,其实很多的现在人工智能所使用的方法算法在几十年以前就有了,但是数据的缺乏让其无法发挥。但是现在到处的传感器,到处的摄像头,人们的电子化生活,一刻不能离身的手机,自动化的工厂,都在疯狂的产生各种各样的数据。我们所熟知的公司比如阿里巴巴,腾讯,百度,滴滴,说到底其实就是数据公司。而且我相信这只是开始,毕竟还有绝大多数的人没有意识到数据的重要性,还有很多的商业场景和生活场景的信息没有数据化,未来这里将会有很多的机会。
但同时,读完这本书后,对于隐私和失业潮这两个问题,真的是感觉在目前的阶段是无解的。方便性和隐私是一对矛盾体,几乎没有人为了隐私而放弃现在的生活方式,去问问有几个人愿意抛弃手机就知道了。国家至今也在这方面无计可施,就算是美国这个信息革命早我们几十年的国家,到现在为止对隐私问题也给不出一个满意的解决方案。现在所有人都是在走一步看一步。大量失业人员的出现其实更严重,但是有趣的是,并没有多少人意识到这点。我以前在工作中做过一些自动化计算的工具,就使得本来专门负责手动计算的工程师转岗了,这其实就是一种失业,而且这可不是对普通的生产工人的冲击,这是对有一定技术能力的人。这本书也提到了医生,律师,记者,编辑,翻译,这些方面正在慢慢被人工智能取代。我们人类引以为豪的大脑正在被人工智能慢慢取代。
我的得到。
不用犹豫了,坚决的投入到这股浪潮中去。
© 本文版权归作者 Marty 所有,任何形式转载请联系作者。
有关键情节透露