大数据能推导出我最喜欢的姑娘是谁嘛?
8月25号湛庐文化在3W咖啡举办了#大数据时代预见未来的新思维#《爆发》读书会,现场活动很成功。我问了一个问题。发现经观已经将录音整理了出来,我又把提问理了一遍。
《爆发》提到人的行为93%都是可以预测的。不过推动个人转向及历史急转的往往就是那不可预测的7%。
提问:基于数据人的行为93%的可预测这个论点该是运用统计学以及逻辑推导,这些预测能够精准到什么程度?以及那7%不可预测的具体包括哪些?
腾讯在今年三月出了QQ圈子,以IM好友数量(非质量)及关系重叠(非交互)程度出发,按共同好友的连锁反应摊开你的人际关系网,直到那些灰色的记忆边缘,将我整个社会关系都给完整地挖了出来,很恐怖。但我很快意识到一个问题:他并没有知道我跟人关系的深浅,就是阙值,他不知道我最喜欢的姑娘是谁,也不知道我跟哪个哥们最铁。当然他们都在圈子里面。93%可预测这个行为相当于是发生物理层面,统计加逻辑,但我们都知道毛毛细雨和滂沱大雨是两个概念,虽然他们都是雨,对于这一块我不知道该如何去进行测量。阙值是否也可以预测以及不可测的7%具体包含哪些东西?这是我想知道的两个问题。
罗振宇:你能再表述一下你的问题吗?
提问:数据可以预测,因为基于统计以及逻辑推导,但是阙值,我跟朋友关系的深浅这个浓度概念他没有给我推导出来。
罗振宇:你的问题是什么?
提问:我的问题就是阙值能否推导以及其他不能推导出来的包括哪些?
罗振宇:到什么程度才能推导他来他喜欢哪个姑娘?
董寰 :我觉得是这样的,从巴拉巴西那本书以及我现有部门的大数据这本书我们来看的话,其实大数据的专家们他们对于大数据他们的基本特征,他觉得在大数据时代有两个特征是比较明显的,第一他讲的是概率性,因为这是海量数据,另外他觉得精确性已经是对他而言并不是非常非常在意的东西了,而是概率性,第二就是数据之间的相关性,这个相关性是说以前的时候我们这些数据都是因果的关系,现在是说不同的数据我们看似是没有什么样的,我们不再去挖最终的因果了,而是看是不是有相关的关联,而相关的关联可能会对数据产生一个你觉得这个事情之前是完全没有任何关联的,但是忽然你觉得这些之间似乎是有某一种意义存在的,比如说就像是我总觉得像亚马逊他背后的数据的统计的平台,可能他就是根据用户的一些习惯他把你一些不同的情况给关联在一起了,所以我觉得大数据时代的两个特征,一个是概率性,一个是相关性,这个是基本的特征,刚才您说的精确性他能做到,他是随着世界上这种技术的发展,对于这种计算机也好,对于新的技术的演进也好精确性是能够解决的,通过你的样本的情况以及你一个更大量数据和你的操作平台的控制,你的精确性是可以解决的,但是从商业发展而言来看,以及大数据的基本的特征来说,它的精确性反而不是过分强调的。我不知道是不是可以回答你的问题。
姜奇平:我理解你的问题是按照逻辑和量化分析之外还能做什么,我的答案是我认为有巴拉巴西和大数据已经有明显的进展,这个进展不是哲学问题。第一个在量化分析里面实际上你提了几个问题都提升到质,质可不可以分析,我明确地提出可以分析,现在这个大数据在技术上有极端的特点,他从结构化数据到非结构化数据,非结构化数据意味着什么,跟质有关的几位数据开始进行分析领域了,这个里面是图像,包括语言,包括声音这几项都是包含了非逻辑性的因素,它可以由此进入到质的分析,比如说我们进行语言分析的时候,从语型到语义要语用就是你言外之意这些分析,实际上是通过语言分析不是通过统计分析,这一点大数据可以大大地推进一步,第二我认为就是在一时层面之下还有一些过去难以分析的潜意识层面的东西,比如情感的东西等等,你说到深度以后他涉及的是以往在业余分析的水平里头佛洛依德曾经做过这样的一种分析,大数据现在可以得出明显的结论,他可以在专业水平上做大,比如说你做的梦,你似乎觉得梦是不可以决定的,其实梦是可以决定的,当你问你的小孩他梦见的是大灰狼还是老巫婆?这个东西他脑子里想的是什么呢?他梦见的是老巫婆的话是你的爱人对他太严厉了,如果梦见大灰狼是你对他他严厉了,小孩他只受到了压力他并不做语言分析,但是和他的生活世界觉得最可怕男的动物就是大灰狼,女的动物就是老巫婆,这一点他也可以分析出来,这点只是时间早晚的问题不存在不可克服的障碍,但是有一点从这两个问题都是属于受力状态,自由意志都不是你这个问题,刚才那位说的创造性已经逃离了问题的区域了。
张昕:我理解你还是想扩展93%,你刚才问题是想知道人际关系浓度的问题,我想反问一个问题,假如说能够预测出你喜欢的人话的话你会喜欢这样的产品吗?
男子:我会立刻抛弃它。
张昕:我不是QQ圈子的产品经理,我是做别的产品经理,其实像你跟某个人的浓度,你跟谁经常聊天,聊天的频次这些都是能捕获的,另外包括你聊天时间,你用了QQ的聊天,你又用了QQ的输入法,你跟他发的时候是用什么样的语气词去写这个句子的,你包括说你在敲这个字的时候敲了一会儿又退回去,又在改,这些行为都可以给你捕获的。
罗振宇:从个人的体验上讲我自己有一个体会,因为我找老婆是在世纪佳缘上找到的,我刚开始列的条件比如一米七的大高个儿,长波浪的头发我都写上了,但是最终我找的那个老婆恰恰都不符合这些,包括我老婆对我的条件,比如她刚开始的条件有什么不抽烟什么的,结果找了一个大烟鬼,有的时候要给生命留一些空间,比如说别人预测不到最好连自己都预测不到那才好呢。
《爆发》提到人的行为93%都是可以预测的。不过推动个人转向及历史急转的往往就是那不可预测的7%。
提问:基于数据人的行为93%的可预测这个论点该是运用统计学以及逻辑推导,这些预测能够精准到什么程度?以及那7%不可预测的具体包括哪些?
腾讯在今年三月出了QQ圈子,以IM好友数量(非质量)及关系重叠(非交互)程度出发,按共同好友的连锁反应摊开你的人际关系网,直到那些灰色的记忆边缘,将我整个社会关系都给完整地挖了出来,很恐怖。但我很快意识到一个问题:他并没有知道我跟人关系的深浅,就是阙值,他不知道我最喜欢的姑娘是谁,也不知道我跟哪个哥们最铁。当然他们都在圈子里面。93%可预测这个行为相当于是发生物理层面,统计加逻辑,但我们都知道毛毛细雨和滂沱大雨是两个概念,虽然他们都是雨,对于这一块我不知道该如何去进行测量。阙值是否也可以预测以及不可测的7%具体包含哪些东西?这是我想知道的两个问题。
罗振宇:你能再表述一下你的问题吗?
提问:数据可以预测,因为基于统计以及逻辑推导,但是阙值,我跟朋友关系的深浅这个浓度概念他没有给我推导出来。
罗振宇:你的问题是什么?
提问:我的问题就是阙值能否推导以及其他不能推导出来的包括哪些?
罗振宇:到什么程度才能推导他来他喜欢哪个姑娘?
董寰 :我觉得是这样的,从巴拉巴西那本书以及我现有部门的大数据这本书我们来看的话,其实大数据的专家们他们对于大数据他们的基本特征,他觉得在大数据时代有两个特征是比较明显的,第一他讲的是概率性,因为这是海量数据,另外他觉得精确性已经是对他而言并不是非常非常在意的东西了,而是概率性,第二就是数据之间的相关性,这个相关性是说以前的时候我们这些数据都是因果的关系,现在是说不同的数据我们看似是没有什么样的,我们不再去挖最终的因果了,而是看是不是有相关的关联,而相关的关联可能会对数据产生一个你觉得这个事情之前是完全没有任何关联的,但是忽然你觉得这些之间似乎是有某一种意义存在的,比如说就像是我总觉得像亚马逊他背后的数据的统计的平台,可能他就是根据用户的一些习惯他把你一些不同的情况给关联在一起了,所以我觉得大数据时代的两个特征,一个是概率性,一个是相关性,这个是基本的特征,刚才您说的精确性他能做到,他是随着世界上这种技术的发展,对于这种计算机也好,对于新的技术的演进也好精确性是能够解决的,通过你的样本的情况以及你一个更大量数据和你的操作平台的控制,你的精确性是可以解决的,但是从商业发展而言来看,以及大数据的基本的特征来说,它的精确性反而不是过分强调的。我不知道是不是可以回答你的问题。
姜奇平:我理解你的问题是按照逻辑和量化分析之外还能做什么,我的答案是我认为有巴拉巴西和大数据已经有明显的进展,这个进展不是哲学问题。第一个在量化分析里面实际上你提了几个问题都提升到质,质可不可以分析,我明确地提出可以分析,现在这个大数据在技术上有极端的特点,他从结构化数据到非结构化数据,非结构化数据意味着什么,跟质有关的几位数据开始进行分析领域了,这个里面是图像,包括语言,包括声音这几项都是包含了非逻辑性的因素,它可以由此进入到质的分析,比如说我们进行语言分析的时候,从语型到语义要语用就是你言外之意这些分析,实际上是通过语言分析不是通过统计分析,这一点大数据可以大大地推进一步,第二我认为就是在一时层面之下还有一些过去难以分析的潜意识层面的东西,比如情感的东西等等,你说到深度以后他涉及的是以往在业余分析的水平里头佛洛依德曾经做过这样的一种分析,大数据现在可以得出明显的结论,他可以在专业水平上做大,比如说你做的梦,你似乎觉得梦是不可以决定的,其实梦是可以决定的,当你问你的小孩他梦见的是大灰狼还是老巫婆?这个东西他脑子里想的是什么呢?他梦见的是老巫婆的话是你的爱人对他太严厉了,如果梦见大灰狼是你对他他严厉了,小孩他只受到了压力他并不做语言分析,但是和他的生活世界觉得最可怕男的动物就是大灰狼,女的动物就是老巫婆,这一点他也可以分析出来,这点只是时间早晚的问题不存在不可克服的障碍,但是有一点从这两个问题都是属于受力状态,自由意志都不是你这个问题,刚才那位说的创造性已经逃离了问题的区域了。
张昕:我理解你还是想扩展93%,你刚才问题是想知道人际关系浓度的问题,我想反问一个问题,假如说能够预测出你喜欢的人话的话你会喜欢这样的产品吗?
男子:我会立刻抛弃它。
张昕:我不是QQ圈子的产品经理,我是做别的产品经理,其实像你跟某个人的浓度,你跟谁经常聊天,聊天的频次这些都是能捕获的,另外包括你聊天时间,你用了QQ的聊天,你又用了QQ的输入法,你跟他发的时候是用什么样的语气词去写这个句子的,你包括说你在敲这个字的时候敲了一会儿又退回去,又在改,这些行为都可以给你捕获的。
罗振宇:从个人的体验上讲我自己有一个体会,因为我找老婆是在世纪佳缘上找到的,我刚开始列的条件比如一米七的大高个儿,长波浪的头发我都写上了,但是最终我找的那个老婆恰恰都不符合这些,包括我老婆对我的条件,比如她刚开始的条件有什么不抽烟什么的,结果找了一个大烟鬼,有的时候要给生命留一些空间,比如说别人预测不到最好连自己都预测不到那才好呢。
有关键情节透露