匆匆大数据

与非 评论 大数据时代 3 2013-01-07 09:52:34
安倍儿
安倍儿 2013-01-31 06:43:30

书我没有看完,最近忙考试没时间了。。。

我想就lz说的第三点说下自己的看法。我不反对lz的想法,但我支持作者。不知道lz学的是什么呢?探究的思想是前进发展的动力不假,但用纯粹lz所说的追求因果关系来处理数据是绕道而行。lz可能把事物混淆了,以为所有东西都要有个因果。其实没错,因果循环我同意。但数据挖掘仅仅是让数据来说话。数据怎样说话呢?我们在海量数据中标记目标,挑选属性,训练数据,最终都是为了预测。我想bayes network可以是个很好的例子。correlation不等于causality,bayes追求的就是关系而非原因。association rules更是典型的关系例子。如果再往更大更高纬的数据说,比如支持向量机器,它连数据间的数据关系都不考虑了,只考虑空间位置。
举了很多例子是想说,lz可能对数据挖掘不是很了解,所以才不认为作者说的“相关性重于因果”。这里只是说数据。

另外,我对作者一点不了解。我觉得这本书好的地方在于,作者把一个新的专业的概念用生活中的例子平浅的介绍给大众。是一本休闲的书,所以我也没期望它能给什么营养。当顿饭就好了。

与非
与非 2013-01-31 18:38:52

谢谢你的热心讨论,受教了~

我对数据挖掘或者机器学习之类的领域的确不了解,只是从经典理工科思维出发考虑问题,而译者其实或多或少也是持有这种观点的(周涛教授的本专业是物理),不过站在数据处理的角度看,从数据中有效的提取出「有价值」的信息才是重要的,在当下,相关信息确实是最值得关注的。

但我还是觉得这仅仅因为相关信息最好提取,「性价比」最高,一句话——符合实际应用。

但它并非全部,更不应该是终极目标。如果将来可以从繁杂的数据中提取出因果信息,让我们知其然之外,还可以知其所以然,那不是更好么?

安倍儿
安倍儿 2013-02-01 03:44:05

嗯,我觉得可以这样想:术业有专攻。都让数据处理人员讲话了,科研者做什么呢?比如相关性可以告诉我,一名患者平日保持健康饮食的概率是a,坚持运动的概率是b。(不)健康饮食导致心脏疾病的概率为...,(不)坚持运动导致心脏病的概率为...,遗传因素概率为...,所有这些信息能提供我们患病几率。但是,究竟为什么呢?这不是大数据的领域了。数据分析可以提供市场分块,购买行为。但为什么市场会这样呢?消费者为什么如此行动呢?不是大数据的领域了。这些只是我的理解。

与非
与非 2013-02-01 05:45:15

是这样的~
我也是这么认为的,呵呵:)

eric
eric 2013-02-12 13:27:21

相关性重于因果是本书最有意思的命题。举个例子,如果疗法A源于病理学研究,成功率60%,能解释因果;疗法B源于大数据分析,成功率90%,无法解释因果。那我们会选哪种?

对我而言,答案不言而喻:先使用B,然后有时间探究其原因,但这样做只是为了两点1)满足好奇心,求心安2)探寻尚未被发现的理论,获得更广泛应用。

elicse
elicse 2013-02-16 13:16:06

事物间的因果如果上升到追求真理这个目标上,当然伟大,但未必符合实际。既然楼主是理工科背景的人,我也举一个物理学中的“相关性重于因果”的例子:量子力学。

没有人能准确的知道围绕原子核运转的电子某时某刻出现在什么地方,我们只能按照概率统计提出电子云的模型;也没有人能说清楚光的本质是什么,我们只能从大量的实验和经验总结出它具有波粒二象性。这或许是目前的技术手段和理论所不及,但如果我们非要用因果论思考客观现实,我们的研究就会僵化停滞,基于观测的大数据统计,可能比我们旧有的因果假设模型更接近于现实。作为实用性的工具,我们总不能等到那些因果模型完全搞清楚再去分析社会和自然吧。

不就是白小白
不就是白小白 (前方犹如聂鲁达的情诗一般美好~) 2013-02-18 11:48:08

各有各的道理,但是从外行人的伦理角度说,数据预测只能够涵盖“大部分”,并不能做到“完全覆盖”;好比坚持锻炼的人一定不生病的道理一样;
就医学而言,谁也不愿意做那个少数的百分比,2%的人会死掉。
但是就医学科学而言,我们通过分析病理,能够拯救者2%的人。
既是如此。
大数据给了我们更好的方向,而领域科学帮我们解决具有针对性的问题。

痒痒
痒痒 2013-02-21 15:42:55

既然你已经承认了他的前两点,那么自然也就认可了第三点,他并没否认事物背后的原因,只是不大认可在实证逻辑下简单的因果关系。

要追寻不要躲避
要追寻不要躲避 (我不止是太笨) 2013-02-23 13:20:47

大数据的分析给出一个大致的结果,指明进一步分析因果的研究方向。

与非
与非 2013-02-28 21:58:25

elicse同学举的量子力学的观点在我看来不能作为说明「相关性重于因果性」的例子,因为概率云并非是不了解微观粒子背后的原理猜出来的,它之所以是那样,正是因为它就是「那样」,这背后有严谨的物理本质。

关于社会学方面的应用我就不清楚了,但是在自然科学领域,因果性(不是精确性)一定是科学家们的终极追求。

与非
与非 2013-02-28 22:17:20

我发现有不少同学混淆了「模糊性」和「相关性」。
并非给出了一个概率,一个趋势,就是「相关」了。

elicse
elicse 2013-03-04 12:32:32

可是说一个大概率或一个趋势表示相关性强并不错吧?虽然也存在随机情况。

与非同学如果了解量子力学的发展史,一定知道爱因斯坦的那句名言“上帝不会掷骰子”。爱因斯坦可以算一个完全的因果律信仰者,但物理学始终是重视实践的,所以最终物理学界接受了骰子一样的概率。这和大数据时代的作者在哲学上是类似的。

大数据时代的作者也认为因果关系是有用的,但不能作为来源基础了。容我引用书中的话“在大多数情况下,一旦我们完成了对大数据的相关性分析,而又不再仅仅满足于“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的为什么。”这不就是量子力学的建立过程吗?

与非
与非 2013-03-04 21:33:42

非常感谢elicse同学的热情讨论。

我本人是搞信号处理的,业余对量子力学的发展历程略知一二,你说的没错,整个量子力学的演进的确充斥着对因果律的不断诘问。

也正因此,哥本哈根体系才会引起那么多物理学家的不安。

其实近几十年来许多新的量子论解释也在努力规避那使薛定谔的猫变得不死不活的诡异图景。

八十年来,量子力学还没有一个定论,而新的解释正在不断涌出,所以,爱因斯坦的那句「上帝不会扔骰子」至今依然有意义(当然可能不是当初的他老人所想的了)。

抛开这一切,我认为这跟互联网领域的数据处理还是没有太大可比性的,在我看来,这是两个问题,一个是关于大自然本身属性的探寻;一个则是从实用主义出发(这里没有任何贬义)开发高效利用有限信息的工具。

过于依赖相关性,可能会带来偏见,举个例子,网上流传的变电站附近癌症儿童比例升高,是否就说明城市中的变压器会对人体造成危害呢?如果只看数据的相关性,则很有可能会得出这类结论,但是如果了解低频电磁场并不会对人体造成伤害(很极端的情况例外)这个原理,就不会匆匆得出一个不严谨、甚至错误的结论了。癌症儿童的增多可能与变电站附近的普遍贫困居住环境有关,等等。

所以,对于这样一本互联网领域的书籍,从现实性考虑,他重视相关性过于因果的倾向可以理解,但是对于自然科学来说,在抛弃因果性之前,一定要慎之又慎。

elicse
elicse 2013-03-07 15:04:28

感谢与非同学的回复。

为什么我觉得自然科学中的量子力学,和互联网上的大数据分析有相同之处呢?

因为这两者都是一种在宏观的尺度上看待微观事物的新思路,旧有的因果逻辑分析不能够解决此类问题。

以自然科学来说,当观察的尺度在时间和空间上缩小了亿亿倍之后,微观粒子的组成和行为方式,可能尚在我们能够理解的宏观模型之外。我们在宏观世界习惯的观测手段,与相应因果判断都不起作用。微观世界的粒子也许和“场”的概念类似,没有固定的结构,无法触摸定位,只能用一些其他手段验证它的存在。这时候,统计和概率更有助于新模型的建立。

以大数据处理而言,当数据范围急剧扩大,而观察对象又聚焦到任意一个具体的数据时,影响这个数据的因素可能非常之多,原先针对样本数据进行的因果逻辑分析也会变得力不从心。这时候使用相关性分析先看到趋势,如果是预测直接使用即可,如果是调研可能还要进一步分析总结出新的因果关系。

关于您举的那个变电站附近儿童患癌的例子。我是觉得,如果仅仅是用于预测,如医生的诊断,或者卫生部门预防性的抽检,那么重视相关性就足够了,何况低收入和患癌的相关性也会列入计算。如果是变电站附近要建一所幼儿园,需要更深层次的因果关系论证,那么您的分析无疑是更准确的。

与非
与非 2013-03-10 18:41:01

谢谢~

我明白你的观点了,你是说当现有的研究手段不能准确把握研究对象时,不妨使用一个整体性的描述来替代。甚至有时候精确化的描述从本质上就不可能(不确定性原理),那么只有借助统计手段才能准确表征。

这一点我是非常赞同的,只是我个人觉得这方面的内容其实在第二点「精确让位于模糊」中就已经说明了。当然从相关性的角度来考虑它,其实也有着很多共通点。更何况实际工程中有不少例子可以佐证。

现今从理论到工程的鸿沟已经越来越小,的确,一味地强调理论的纯粹性在很多时候并没有多少建设性的意义。

愿能敞开心扉
愿能敞开心扉 2013-03-17 01:03:52

我觉得大数据的广泛应用完全适用于任何的科学领域,不管是自然科学还是社会科学的。对于社会科学而言,因为有人这个主体的存在所以不能百分百的精确,因而所能探究的只能是一种趋势,或者可能性。而对自然科学来说,大数据的应用我觉得更多的会体现在提出hypothesis上,就像牛顿看苹果掉落一样,大数据可以给人一种直观的印象,意义在于先猜后证吧

与非
与非 2013-03-18 22:14:19

关于相关性与因果性的在科学中的关系,这里有一篇不错的文章:
《摆脱童稚状态》:http://www.guokr.com/article/58409/

(王小波的同名文章也写得很精辟)

此外,作者的另一篇文章也表明了,单纯从相关性得出来的结论,有时候并非是靠谱的(医学领域的案例):http://www.guokr.com/article/49901/

洋铁皮
洋铁皮 (World is small,world is big) 2013-03-29 12:10:47

我觉得作者并没有否认因果关系的意思,只是在大数据时代,相关性分析的优势更加明显,相关性分析更多的是提供预测依据,因果分析更重要的提供解决依据

bluesky
bluesky 2013-04-01 22:28:13

我的观点和elicse同学类似,楼主误会了相关性和因果性的本质了,不需要想的那么高深复杂,作者是从宏观的角度去说整个大环境的发展趋势中起主导作用的因素,楼主是从微观角度去分析具体的问题,当然可以列举出很多相反的个案。但这就不是作者的真正意图了。
其实用一些生活中很简单的例子就可以佐证作者的观点了:候鸟南飞,说明冬天要来临了;公鸡打鸣,说明天快亮了;我们在豆瓣上浏览的某类类书籍较多时,豆瓣也会推荐同类书籍给你。。。这些都是相关性的结果,而不是因果性,大部分时候我们只需要理清相关性。这也是这个科技飞速发展的时代未来发展的趋势,定制化的服务、个性化的选择,都是依托相关性数据,它不用去分析这背后的因果关系。这一点,从历史的滚滚浪潮中,也可以瞥见:所有的自然规律和历史经验最终起主导作用的还是相关性。
另外,科技是来源于巫术。巫术与科学在认识世界的概念上,两者是相近的。二者都认定事件的演替是完全有规律的和肯定的。并且由于这些演变是由不变的规律所决定的,所以它们是可以准确地预见到和推算出来的。一切不定的、偶然的和意外的因素均被排除在自然进程之外。
我坚持认为艺术比科学重要,人文比技术重要,感性比理性重要。

与非
与非 2013-04-02 22:19:22

嗯,推荐一本书吧,达莱尔·哈夫的《统计陷阱》:
http://book.douban.com/subject/1100657/

慧明
慧明 (区块链 全栈工程师 本征资本CTO) 2013-05-11 20:18:16

M

慧明
慧明 (区块链 全栈工程师 本征资本CTO) 2013-05-12 16:50:17

李银河应该重读王小波《摆脱童稚状态》在这里
http://blog.sina.com.cn/s/blog_4b2ed3c30100emlm.html?tj=1

楊甚麽
楊甚麽 (异乡的常客,家乡的过客) 2013-05-30 13:51:07

如果抛开对译者的推崇,我会说,这本定价半百的介绍互联网前沿趋势的书籍其含金量并不怎么高。——非常赞同。

流浪的美沙酮
流浪的美沙酮 2013-06-20 10:36:20

科学的目的就是搞清楚事物的本事,追寻表面现象下的本质正是我们搞科学研究的目的,基于这个目的,采取各种不同的方法就是看每个人自己的想法了,对于数据的处理也不例外。但是当目的不同时,我们的关注点也就不同,采用的思维方法也就有所不同,所以LZ的观点和书中作者的观点都是很受用的。

与非
与非 2013-06-20 15:26:00

各位的见解都很有启发性,谢谢!

MetalDudu
MetalDudu (自律即自由) 2013-07-23 15:43:59

楼主引发的讨论,其实也是很多人的疑惑。因果性思维本来就是从无序中建立的,我们也是从中教育成的,但大数据似乎又让世界回到无序中,从无序发现关联规律而非一定是因果性的规律。
我觉得一本书的含金量,未必是字字珠玑,这本书可能在许多年后只是个引子,但它是启发性的。

陆德斯托克
陆德斯托克 (搞) 2013-07-28 14:44:54

作者大概是想说,既然有些现象暂时找不到因果关系、相关关系带给咱的帮助也很大,那就先别急着去找因果关系。

飞天猪猪侠
飞天猪猪侠 2013-07-31 14:15:34

商业价值非常大. 因为传统的抽样分析是非常有局限性的, 老实说对企业的指导性根本很弱. 大数据不是象牙塔里的完美理论, 但是对于企业很有意义, 非常实用,是可以带来革命性变化的.

渡岸溪
渡岸溪 2013-08-31 17:16:53

相关更符合社会发展对速度的追求。

wecout
wecout 2013-09-01 12:02:35

相关关系能够快速的找到解决问题的捷径,因果关系是人类长期以来的思维惯性。相辅相成本就不存在对立。

老鼠
老鼠 (我是一只恶魔) 2013-09-22 22:43:01

关于因果性与相关性的问题我简单说下。其实任何因果性最终都会归于相关性,当一个科学家不断地追问为什么,他只能一次次的发现更深程度的是什么。当你以为你弄清了为什么时,你不过是知道了一个是什么。楼主能明白我的意思么?

灵之
灵之 2013-10-08 13:35:42

任何理论都是错的,因果关系属于相关关系,都是一种临时的工具.

咦
(人生从来只有艰难) 2013-10-11 20:20:11

对译者的推崇。。。周涛教授么?刚上研究生,求lz推荐几本你认为好的数据挖掘方面的书啊~~

one_day
one_day 2013-12-16 22:22:04

个人认为:相关性的研究是为了从第一手数据之中找到重点,为因果关系的揭示提供更可靠的信息。

与非
与非 2013-12-16 22:44:42

@ 咦
对,指的就是周涛教授,他的讲座我去听过,是非常有学识的一位年轻学者;而且对科研和生活都有着无限热情,我很敬重他。

机器学习和数据挖掘这方面我看得不多(我是搞信号处理的),国内的书籍,目前感觉李航的《统计学习方法》不错。

Matthew Wu
Matthew Wu 2013-12-18 10:51:39

作者其实在书都后边说了“当然在某些情况下,我们仍然需要精心策划的数据来做因果关系研究和控制实验,如测试药物的副作用或者设计关键的飞机部件。但是在日常情况下,知道“是什么”就已经足够了,不必非要弄清楚“为什么”。大数据的相关性将人们指向了比探讨因果关系更有前景的领域”。作者并没有绝对的摒弃对因果关系的追求。

.
. (须臾回首,少年白头) 2014-03-18 15:56:05

我刚刚读完本书,也在纠结相关性和因果性,几位的讨论给了很大的启发。

与非
与非 2014-03-18 17:05:05

嗯,这将是科学研究和工程实践之间永恒的话题:)

Oscar.Zhang
Oscar.Zhang 2014-06-09 08:56:51

目前相关性大于因果性,因为以我们目前的认知和技术,这便于提升效率。但终归,因果还是决定一切的。这点书中我记得有提到

Luyor
Luyor 2014-07-08 19:18:27

我刚开始和你一样不同意第三点,但是请问在大数据时代你面对的如此庞大的数据如何去挖掘问题的本质!即使你发现了问题的本质说不定是一个很小的因素就像森林里面蝴蝶扇动翅膀最后连锁反应造成一场台风,而这种因素往往会变的,最后现象有不同了。我理解大数据就是我们人类的机器牛逼了可以直接看到全局现象,但是我觉得人类却退步了,你不觉得以前有些统计方法是很聪明的吗?而我们以后甚至都不用动脑筋了!作者看到了这一点的!他太英明了,我觉得你不该只给他3分!

与非
与非 2014-07-08 21:15:37

不要把自己的观点强加给他人哈。

另外你以为大数据的「大」,就是数据庞大的意思么?

作者和译者都明白大数据有着更深层的含义。

即是如此,它还是无法代替探究事物本质原理的研究。

小徐
小徐 2017-03-21 10:24:08

奇怪的是如果你不能接受作者的第三个理论,又怎么能接受第二个理论?

regulusun
regulusun 2017-04-11 15:01:17
嗯,我觉得可以这样想:术业有专攻。都让数据处理人员讲话了,科研者做什么呢?比如相关性可... 嗯,我觉得可以这样想:术业有专攻。都让数据处理人员讲话了,科研者做什么呢?比如相关性可以告诉我,一名患者平日保持健康饮食的概率是a,坚持运动的概率是b。(不)健康饮食导致心脏疾病的概率为...,(不)坚持运动导致心脏病的概率为...,遗传因素概率为...,所有这些信息能提供我们患病几率。但是,究竟为什么呢?这不是大数据的领域了。数据分析可以提供市场分块,购买行为。但为什么市场会这样呢?消费者为什么如此行动呢?不是大数据的领域了。这些只是我的理解。 ... 安倍儿

有道理

regulusun
regulusun 2017-04-11 15:15:30
我刚开始和你一样不同意第三点,但是请问在大数据时代你面对的如此庞大的数据如何去挖掘问题... 我刚开始和你一样不同意第三点,但是请问在大数据时代你面对的如此庞大的数据如何去挖掘问题的本质!即使你发现了问题的本质说不定是一个很小的因素就像森林里面蝴蝶扇动翅膀最后连锁反应造成一场台风,而这种因素往往会变的,最后现象有不同了。我理解大数据就是我们人类的机器牛逼了可以直接看到全局现象,但是我觉得人类却退步了,你不觉得以前有些统计方法是很聪明的吗?而我们以后甚至都不用动脑筋了!作者看到了这一点的!他太英明了,我觉得你不该只给他3分! ... Luyor

我不觉得人类退步了,只会进步,以前解决不了的现在可以解决,以前没精力去解决的,现在有时间去研究了