《大数据时代》的原文摘录

  • Google:系统唯一关注的就是特定检索词条的频繁使用与流感在时间和空间上的传播关系之间的联系。 社会新能力:前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,与深刻洞见。 Oren Erzioni:Harvard CS 1st(1986 grad) 飞机票价格预测 到2012年为止,Farecast系统用了将近十万一条价格记录来帮助预测美国国内航班的票价。准确度高达75%。 社会需要放弃它对因果关系的渴求,而今需关注相关关系,只要知道是什么,不需要知道为什么。 硅谷技术成熟度曲线:经过新闻媒体和学术会议的宣传后,新技术趋势一下子跌到谷底。 【大数据先锋】:天文学,信息爆炸的起源 人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度比世界经济增长速度快9倍。 量变导致质变,当我们改变规模时,事物的状态有时也会发生改变。 纳米技术! 大数据是把数学算法用到海量的数据上来预测事情发生的可能性。 大数据【我们分析信息时的三个转变】: 1.我们可以分析更多数据,甚至处理和某个特别现象相关的所有数据,而不依赖与随机采样。 2.研究数据如此之多,以至于我们不再热衷于追求精确度。只要掌握大题的发展方向就好。 3.不再热衷于寻找因果关系,二是相关关系。 大数据对个人的影响是惊人的,使专业性不那么重要了。 【马其诺防线?】 !对我们而言,危险不再是隐私的泄露,而是被预知的可能性。 【IBM资深大数据专家】:Jeff Jonas:要让数据说话。 【大数据与三个重大的思维转变有关】: 1.要分析于某事物相关的所有数据,而不是依靠分析少量的数据样本。 2.乐于接受数据的纷繁复杂,而不再追求精确性。 3.不再探求因果,而是相关。 当样本数量达到了某个之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边... (查看原文)
    [已注销] 9赞 2013-01-24 16:49:35
    —— 引自章节:前三章
  • 危险不再是隐私的泄露,而是被预知的可能性 (查看原文)
    要追寻不要躲避 2回复 6赞 2013-02-08 00:34:48
    —— 引自第22页
  • 数据正成为巨大的经济资产,成为新世纪的矿产与石油,将带来全新的创业方向,商业模式和投资机会。 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 本书的译者周涛教授是我国最年轻有为的大数据专家。这位27岁的天才型教授,数年来一直带领我国学术界在大数据研究上向国际一流看齐。更可贵的是,他不仅做研究,也关注着研究成果的商业化及传播。这部译著就是他这种努力得一个成果。 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 大数据的出现,是的通过数据分析获得知识,商机和社会服务的能力从以往局限于少数象牙塔之中的学术精英圈子扩大到了普通的机构,企业和政府部门。门槛的降低直接到这了数据的容错率的提高和成本的降低。正如维克托所强调的,最重要的是人们可以再很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在显著的相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么可以相关可以留待学者们慢慢研究。大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对象。 ——田溯宁 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 世界的本质就是数据。因此,大数据时代的经济学,政治学,社会学和许多科学门类都会发生巨大甚至是本质的变化和发展,进而影响人类的价值体系,知识体系和生活方式。 对生活在发展中国家,社会现代化程度尚且有限的读者来说,书中描述的许多已经发生的事例可能更像是神话。没有市场经济制度和法治体系作为基础支撑,大数据很可能成为发达国家在下一轮全球化竞争中的离奇,而发展中国家依然处于被动依附的状态之中。整个世界可能被割裂为大数据时代,小数据时代和无数据时代。 ——谢文 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要。留下一些可供提高的地方,也使得我们的每一次印刷,都能够与以前有所不同。 作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉服用的巨大价值两个方面,讲述驱动大数据战车在才智和智力方面向前鬼懂得最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。 本书偶在三个地方: 一是观点掷地有声,绝非主流媒体上若干讨论的简单汇总和平均,更不是一个宏大概念面前暧昧的叫好声。读者可能对其中一些观点并不认同,但是读完之后不可能一个都记不住。 二是高屋建瓴,作者是同从很多实例和经验,包括历史事件中萃取出普适性地观念,而不仅仅是适用于几个特定情况的案例分析。 三是例子丰富翔实,不长的篇幅包括了上百个学术和商业的实例。 三点近乎完美地结合起来,体现了作者驾驭大问题的能力和丰富的知识,以及,可能更为重要的,作者渴求立言立说的野心!所以说,这本书绝对不是一堆枯燥的纲要,更不是一本巨厚的杂志。 我在这里拼命叫好,并不代表作者的所有观点都是绝对真理。我本人对大数据时代“相关关系比因果关系更重要”这个观点就不认同。有了机器学习,特别是集成学习,我们解决问题的方式变成了训练所有可能的模型和模拟所有可能的参数——问题从一个端口进去,答案从另一个端口出来,中间则是黑匣子。因为米有人能够从成千上万的参数拟合值中读到科学,我们独到的只是计算机工程。与其说大数据让我们重视相关胜于结果,不如说机器学习和以结果为导向的研究思路让我们变成这样。 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 大数据是不是都这样呢?想想瑞士日内瓦的强子对撞机,我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望找到或者验证某种相关关系吗?不是!我们试图回答的,正是人类所能问出的关于因果关系最伟大的问题:希格斯玻色子是否存在,我们的宇宙是否有可能用标准模型刻画。这个问题的最终答案,将打破人和神的界限!认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。 从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,他们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来,一时间把几乎所有的东西都挤到了一边。 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 努力在可以应用、可以拓展的地方,应用它,拓展它;在不能应用,不能拓展的地方,就停下来。 大数据的道路上没有戈多,我们已经在路上,晃晃悠悠。人类的自由意志和诸神之下的尊严,会在这条道路上异化甚至消逝吗?极目远眺,不知道世界的机头是否是一个冷酷的仙境!诸位为之奋斗吧,而我只想,做一个,麦田里的守望者。 (查看原文)
    Mandy 1回复 4赞 2013-03-12 20:05:53
    —— 引自第2页
  • 大数据时代三个重大思维的改变:首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,我们乐于接受数据的纷繁复杂,而不再追求精确性;最后,我们的思维发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。 过去,因为记录、存储和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们很苦恼,为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。P29 小数据时代的随机采样,最少的数据获得最多的信息。事实证明,问题的关键是选择样本时的随机性。统计学家证明:采样分析的准确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。...原因很复杂,但是有一个比较简单的解释就是,当样本数量达到某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。P33 全数据模式,样本=总体。采样的目的就是用最少的数据得到更多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的变化,但我们的方法和思维却没有跟上这种改变。P37 大数据是指不用随机分析法这样的捷径,而采用所有的数据的方法。即大数据不只是单纯的指数量多。P39 在大数据时代来临前很久,相关关系就已经被证明大有用途。不过这时相关关系的应用很少,因为数据很少而且搜集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关分析来评测这个关联物的优劣。那么如何寻找这个关联物呢? 除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的... (查看原文)
    [已注销] 5赞 2013-07-04 23:41:28
    —— 引自第1页
  • 推荐序与译者序: 拥抱大数据时代 大数据发展的障碍,在于数据的流动性和可获取性。 实实在在大数据 1. 即使在现代社会日新月异的发展中,人们还主要是依赖抽样数据、局部数据和片面数据,甚至无法在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者物质的。 2. 大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。 3. 只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。 4. 一组DNA可能会死亡或毁灭,但数据化的DNA却会永存。 5. 哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题。可执行是绝对的,无事无物不可知;不可知性是相对的,是尚未知道的意思。 在路上·晃晃悠悠 1. 首先,作者抛出了大数据时代处理数据观念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。 2. 与其说大数据让我们重视相关剩余因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。 3. 认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。 4. 作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智... (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:引言 正在发生的生活、工作与思维的大变革
  • 我们需要改变操作方式,收集到所有数据。不在把精确性当成重心,接受混乱和错误的存在。侧重于分析相关关系,不再寻求每个预测背后的原因。 更多:不是随机样本,而是全体数据 1. 采样分析精确度的提高依赖于样本随机性的提高,而不是样本数量。 2. 样本数量达到上限后,从新个体上得到的信息会很少。 3. 收集随机样本可以在较低成本的前提下实现高精度。 4. 随机采样不能再往下细分,不然会不准确。 5. 采样结果只能回答事先设计好的问题,不能从中突然获得其他问题的答案。 6. 采样的目的是用最少的数据获得最多的信息。 7. 样本=总体。尽可能收集所有数据。 8. 大数据的“大”不是绝对意义的大。它是指不采用随即分析法,而分析所有数据。 9. 我们会慢慢抛弃样本分析。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第1章 更多:不是随机样本,而是所有数据
  • 更杂:不是精确性,而是混杂性 1. 数量庞大的信息让我们放弃严格精确。 2. 信息在网络中流动,由于延迟,其到达时可能已经失去了意义。 3. 大数据用概率说话,不会确凿无疑。 4. 扩大数据规模,拥抱混乱。 5. 更多数据比更智能的算法系统更重要。 6. 执迷于精确性是信息匮乏和模拟时代的产物。 7. 大数据面前,无需担心个别数据对整套分析的不利影响,无需花费高昂代价消除不确定性。 8. 大数据使我们无法实现精确性。要接受不精确、不完美。 9. 错误不是大数据的特性,它是测量、记录、交流工具的缺陷。可以解决,长期存在。 10. 从前,统计学家关心提高样本随机性,而不是数量。 11. 数据规模增大几个数量级后,小数据的分类索引将崩溃。 12. 清楚的分类被更混乱灵活的机制取代了。 13. 精确的系统试图让我们接受世界贫乏而规整的假象,假装世间万物有序排列,然而现实纷繁复杂。一个唯一的真理的存在是不可能的。混乱是一种标准途径。 14. 处理海量数据不可避免导致部分信息缺失,但我们可以快速获得想要的结果。 15. 宽容错误会给我们带来更多价值。 16. 数据量的限制正在逐渐消失。 17. 只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。 18. 当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第2章 更杂:不是精确性,而是混杂性
  • 更好,不是因果关系,而是相关关系 1. 相关关系通过识别关联物分析现象,不揭示其内部运行机制。 2. 相关关系没有绝对,只有可能性。 3. 相关关系可以捕捉现在,预测未来,但不能预知未来。 4. 过去先有想法,然后收集数据来测试。如今,我们可以通过大量数据找到相关关系。 5. 我们理解世界不再需要建立在假设的基础上。 6. 大数据的核心是建立在相关关系分析法基础上的预测。 7. 理解解释世界的两种基本方法:快速、虚幻的因果关系;缓慢、有条不紊的因果关系。 8. 我们假定因果存在,习惯性因果。 9. 两种思维模式:快速思维,不费力,几秒;慢性思维,费力,对特定问题,思考到位。 10. 快速思维倾向因果,即使不存在因果,惰性。经常凭直觉的因果关系并不能加深对世界的理解,只会产生已经理解的错觉。 11. 相关关系分析取代因果关系起作用,也能指导因果关系。 12. 一旦我们完成了相关关系的分析,不再满足于是什么,就可以找出为什么了。 13. 理论不会消亡,贯穿大数据的方方面面。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第3章 更好:不是因果关系,而是相关关系
  • 数据化,一切皆可“量化” 1. 数据化:把现象转化为可制表分析的量化形式的过程。 2. 数字化:模拟转数字 3. 数据化和数字化本质并不相同。 4. 信息只有被数据化,才能释放巨大的潜在价值。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第4章 数据化:一切皆可“量化”
  • 价值,“取之不尽,用之不竭”的数据创新 1. 数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。大数据时代,数据的 价值从它最基本的用团转变为未来的潜在用途。 2. 大数据时代,所有数据都是有价值的。 3. 数据的价值不会随着它的使用而减少,而是可以不断地被处理。个人的使用不会妨碍其他人的使用。 4. 数据的总和比部分更有价值。 5. 大部分的数据价值都是潜在的,需要通过创造性的分析来释放。 6. 收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第5章 价值:“取之不尽,用之不竭”的数据创新
  • 角色定位,数据、技术与思维的三足鼎立 1. 根据所提供价值的不同来源,分别出现了三种大数据公司: (1) 基于数据本身的公司,拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。 (2) 基于技能的公司,咨询公司、技术供应商、分析公司。掌握了专业技能但并不一定拥有数据或提出数据创新性的用途的才能。 (3) 基于思维的公司,具有挖掘数据的新价值的独特方法。 2. 如果你想成功,你不应该成为一个普通的、可被遂以替代的人,你应该成为最稀缺的、不可替代的那类人。 3. 有着大数据思维的公司和人,他们思考的只有可能,而不考虑所谓的可行。 4. 大数据思维是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。 5. 行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有受到偏见和成见的影响。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第6章 角色定位: 数据、技术与思维的三足鼎立
  • 风险,让数据主宰一切的隐忧 1. 大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。 2. 大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具。 3. 大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次应用。 4. 很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。 5. 只要有足够的数据,那么无论如何都做不到完全的匿名化。 6. 大数据通过给予我们关于个人自身更详尽的数据信息,帮助我们规避了“画像”的缺陷——直接将群体特征强加于个人。 7. 大数据成为了集体选择的工具,但也放弃了我们的自由意志。 8. 大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。 9. 我们比想象中更容易受到数据的统治,我们可能完全受限于我们的分析结果,即使这个结果理应受到质疑。我们会形成一种对数据的执迷,因而仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任。 10. 卓越的才华并不依赖于数据。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第7章 风险:让数据主宰一切的隐忧
  • 掌控,责任与自由并举的信息管理 1. 当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。 2. 伴随着从核技术到生物工程其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。 3. 我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。 (查看原文)
    HAHAWATER 4赞 2022-02-15 20:31:33
    —— 引自章节:第8章 掌控:自由与责任并举的数据管理
<前页 1 2 3 4 5 6 7 8 9 ... 20 21 后页>