出版社: 中信出版社
副标题: 赤裸裸的数据真相
原作名: Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are
译者: 胡晓姣 / 张晨 / 左润男
出版年: 2018-11
页数: 328
定价: 58
装帧: 精装
ISBN: 9787508693873
内容简介 · · · · · ·
有多少人买了书真正看完了?
你朋友的酒量有他说的那么大吗?
父母是否暗自喜欢男孩儿多于女孩儿?
电影里暴力镜头增多会导致犯罪率升高吗?
种族歧视在现如今的美国还严重吗?
特朗普的胜利有征兆吗,什么促成他赢得了大选?
……
你知道问题的答案吗,直觉会怎样告诉你?
作者赛思·斯蒂芬斯--达维多维茨是一位前谷歌数据科学家和专栏作家。他的研究发现,世界充满了谎言,人类或出于善意或出于恶意,无时无刻不在说谎。对于以上以及类似的很多问题,传统的统计调研方法得出的结论很多是错误的,误导了我们的认知。
但是,人们往往在一个地方放下戒备、吐露心声,那就是互联网。每一次搜索、每一次点击、每一次停留、每一次关闭……在线生成了大量的数据,暴露着你的真实想法、欲望、恐惧和职业,而海量的数据形成的真实而庞大的数据宝库会总结出意想不到的结论和趋势。
在这本应时的力作中,作者从一个...
有多少人买了书真正看完了?
你朋友的酒量有他说的那么大吗?
父母是否暗自喜欢男孩儿多于女孩儿?
电影里暴力镜头增多会导致犯罪率升高吗?
种族歧视在现如今的美国还严重吗?
特朗普的胜利有征兆吗,什么促成他赢得了大选?
……
你知道问题的答案吗,直觉会怎样告诉你?
作者赛思·斯蒂芬斯--达维多维茨是一位前谷歌数据科学家和专栏作家。他的研究发现,世界充满了谎言,人类或出于善意或出于恶意,无时无刻不在说谎。对于以上以及类似的很多问题,传统的统计调研方法得出的结论很多是错误的,误导了我们的认知。
但是,人们往往在一个地方放下戒备、吐露心声,那就是互联网。每一次搜索、每一次点击、每一次停留、每一次关闭……在线生成了大量的数据,暴露着你的真实想法、欲望、恐惧和职业,而海量的数据形成的真实而庞大的数据宝库会总结出意想不到的结论和趋势。
在这本应时的力作中,作者从一个个备受关注的话题切入,用他独特的数据分析方法得出了很多颠覆认知的结论。很多问题的答案正暗藏于看似没有关联的因素中,很多直觉和经验给出的答案与事实相差千里,大数据被合理使用其实比数据库的大更重要……作者广博的知识面将从多个层面拓展我们的认知边界;书中生动有趣的描写让你不想错过任何一个细节。
有媒体评论,这本书融合了《信号与噪声》的合理分析与《鬼才思考术》的脑洞。它以一个引人入胜、充满启迪和智慧的视角,巧妙洞察我们现在可获得的大量信息,为我们提供了实用的数据分析方法,同时也揭示了深深埋藏在数据背后世界本来的样貌。对于想要通过数据了解和分析人类行为与社会的人而言,这本书精彩不容错过。
作者简介 · · · · · ·
《纽约时报》的-专栏作者,沃顿商学院客座讲师,前谷歌数据科学家。他在斯坦福大学获得哲学学士学位,并以美国大学优等生的身份毕业,之后获得哈佛大学经济学博士学位。他用新的大数据源揭示了不为人知的行为和态度,这一研究发现登上了《公共经济学》杂志和其他著名刊物。现居纽约市。
目录 · · · · · ·
绪 论 / 001
第一部分 大数据,小数据
1 你的直觉出错了 / 027
第二部分 大数据的力量
2 弗洛伊德是正确的吗 / 047
3 数据重构 / 057
以身体为数据 / 064
文字数据 / 076
图片数据 / 098
4 数字吐真剂 / 105
性的真相 / 112
憎恶与偏见的真相 / 124
互联网的真相 / 136
虐待儿童和人工流产的真相 / 141
脸谱网好友的真相 / 146
用户的真相 / 149
我们能处理真相吗 / 154
5 放大数据 / 161
我们的县、市和镇中到底在发生着什么 / 168
如何填满我们的每时每刻 / 186
我们的二重身 / 193
数据的故事 / 202
6 世界就是一个实验室 / 205
A/B 测试三两面 / 207
自然残酷而又发人深省的试验 / 219
第三部分 大数据:请小心轻放
7 大数据,大框架?其力有何不能胜 / 243
维度的诅咒 / 246
过分强调什么是可以测量的 / 252
8 数据越多,问题越多?哪些事情不可为 / 259
授权公司的危险 / 259
授权政府的危险 / 267
结 论 / 271
致 谢 / 285
注 释 / 291
· · · · · · (收起)
原文摘录 · · · · · · ( 全部 )
-
Sometimes new data reveals cultural differences I had never even contemplated. One example: the very different ways that men around the world respond to their wives being pregnant. In Mexico, the top searches about "my pregnant wife" include "frases de amor para mi esposa embarazada" (words of love to my pregnant wife) and "poemas para mi esposa embarazada" (poems for my pregnant wife). In the United States, the top searches include "my wife is pregnant now what" and "my wife is pregnant what do I do." (查看原文) —— 引自第12页 -
If you're thrity-three years old and have attended a few Thanksgiving in a row without a date, the topic of mate choice is likely to arise. And just about everybodu will have an opinion. (查看原文) —— 引自第12页
> 全部原文摘录
喜欢读"人人都在说谎"的人也喜欢的电子书 · · · · · ·
喜欢读"人人都在说谎"的人也喜欢 · · · · · ·
人人都在说谎的书评 · · · · · · ( 全部 31 条 )


yet another big data book

对比发现,人们是如此表里不一

人人都在说谎,怎样才知道谁骗了你?
> 更多书评 31篇
-
闻夕felicity (此时正是修行时)
谷歌搜索帮我们绘制了一幅美国种族主义新的分布图——这幅分布图看起来可能与你所想的大相径庭(见 ========== 在美国种族主义搜索量很大的地区,奥巴马比白人民主党总统候选人约翰·克里(John Kerry)4年前的表现要差很多。这些地区的任何其他因素,包括教育水平、年龄、教会参与度、枪支持有状况,都无法解释个中缘由。种族主义搜索并不能预言任何其他民主党候选人会有糟糕的表现,唯独对奥巴马有用。 这样的结果意味着该因...2020-11-15 11:33:00 1人喜欢
谷歌搜索帮我们绘制了一幅美国种族主义新的分布图——这幅分布图看起来可能与你所想的大相径庭(见
==========
在美国种族主义搜索量很大的地区,奥巴马比白人民主党总统候选人约翰·克里(John Kerry)4年前的表现要差很多。这些地区的任何其他因素,包括教育水平、年龄、教会参与度、枪支持有状况,都无法解释个中缘由。种族主义搜索并不能预言任何其他民主党候选人会有糟糕的表现,唯独对奥巴马有用。 这样的结果意味着该因素影响极大。仅仅因为显性种族主义,奥巴马在全美就损失了将近4个百分点的支持率。这个数字要比基于任何调查所能预料的结果都高太多了。
==========
在美国种族主义搜索量很大的地区,奥巴马比白人民主党总统候选人约翰·克里(John Kerry)4年前的表现要差很多。这些地区的任何其他因素,包括教育水平、年龄、教会参与度、枪支持有状况,都无法解释个中缘由。种族主义搜索并不能预言任何其他民主党候选人会有糟糕的表现,唯独对奥巴马有用。 这样的结果意味着该因素影响极大。仅仅因为显性种族主义,奥巴马在全美就损失了将近4个百分点的支持率。这个数字要比基于任何调查所能预料的结果都高太多了。当然,凭借某些对民主党而言得天独厚的条件,奥巴马成功当选总统并顺利连任,但是和任何一个依靠传统数据源取得这一成功的人(也就是所有人)相比,他必须要克服更多困难。在流年不利的情况下,足够多的种族主义者会帮助民主党候选人赢得初选,甚至会使大选结果出现反转。
==========
我的这项研究起初曾被5家学术期刊拒之门外。[10]现在回想起来,我依然觉得有些气恼。多位审稿人都说,他们无法相信有如此多的美国人怀有这样恶毒的种族主义思想。这种观点与人们一直以来的说法明显不符。此外,谷歌搜索似乎就是这样一个奇怪的数据集。
==========
特朗普在初选中一路高歌奏凯,也许可以证明他是位成功的候选人的主要线索,便是我在对奥巴马的研究中所发现的暗藏的种族歧视。谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达
==========
本书中的一些研究完全没有使用大的数据集,而是使用一种全新的创造性数据研究法,这种方法在信息过剩的时代是至关重要的
==========
事实上,最明智的大数据公司常缩减其数据。在谷歌公司,很多重大决定都是基于其全部数据中极少量的样本做出的。[26]你不见得总是需要大量的数据才能得到重要的发现,你需要的是正确的数据。谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。 最重要的是,为了从大数据中获得见解,问题必须问到点上。
回应 2020-11-15 11:33:00 -
月下白桦 (知到极处便是行,行到极处便是知)
那么形似生殖器的食物情况又如何呢?这些食物在梦中出现的频率会出人意料吗?答案是否定的。 香蕉是人们梦中出现频率第二高的水果,但也是生活中食用频率第二高的水果。所以,我们不需要弗洛伊德来解释我们为何会频频梦到它。黄瓜是人们梦中出现次数排名第七的蔬菜,也是生活中食用频率排名第七的蔬菜。这再一次证明食物的形状不见得能解释它们为何会潜入我们的梦境。热狗在梦中出现的频率远远低于汉堡,即使对人们食用更多汉堡...2020-06-25 01:34:05 1人喜欢
那么形似生殖器的食物情况又如何呢?这些食物在梦中出现的频率会出人意料吗?答案是否定的。 香蕉是人们梦中出现频率第二高的水果,但也是生活中食用频率第二高的水果。所以,我们不需要弗洛伊德来解释我们为何会频频梦到它。黄瓜是人们梦中出现次数排名第七的蔬菜,也是生活中食用频率排名第七的蔬菜。这再一次证明食物的形状不见得能解释它们为何会潜入我们的梦境。热狗在梦中出现的频率远远低于汉堡,即使对人们食用更多汉堡的现状加以控制,情况也是如此。 总体来看,在对所有水果和蔬菜进行回归分析后,我发现对一种食物而言,因形似阴茎而出现在人们梦境中的可能性并不如其受欢迎程度来得大。[插图]弗洛伊德的这一理论是可以被证伪的——至少,根据我对数据的研究,这个理论是错误的。
回应 2020-06-25 01:34:05 -
静川先生 (静似明月,川流不息。)
在脸谱的世界里,家庭生活似乎是完美的;在现实生活中,家庭生活一团糟,甚至有些人会后会生下孩子。在脸谱的世界里,每个年轻人似乎在周六晚上都参加炫酷的聚会;在现实生活中,大多数人都是独自在家,在Netflix网站上看视频狂欢。(P148-149) 最近有一篇名字叫:被抖音毁掉的年轻人。 其中作家筱茧在一篇评论中也说:很多人都在说分配自身注意力和精力的主动权,已经慢慢脱离了我们自己的手中,转移到了强制执行的电脑程序中...2020-03-09 23:11:46 1人喜欢
在脸谱的世界里,家庭生活似乎是完美的;在现实生活中,家庭生活一团糟,甚至有些人会后会生下孩子。在脸谱的世界里,每个年轻人似乎在周六晚上都参加炫酷的聚会;在现实生活中,大多数人都是独自在家,在Netflix网站上看视频狂欢。(P148-149)
最近有一篇名字叫:被抖音毁掉的年轻人。 其中作家筱茧在一篇评论中也说:很多人都在说分配自身注意力和精力的主动权,已经慢慢脱离了我们自己的手中,转移到了强制执行的电脑程序中。 这个似乎说得有点过的感觉,主要原因还是目光聚焦于网络带来危害性影响,特别是对青少年的成长的影响。但是不奇怪,在以网络为平台的虚拟空间,每个人都可以找到属于的自己的“天地”,互联网公司也在削尖脑袋开发新的程序,新的心理寄存点。不管是脸谱还是抖音,它们给人提供了一个自由说话的平台,每个人蜷缩在键盘背后,肆无忌惮的打出自己想说的话,毕竟虚拟性给了他自以为事不关己的感觉,这种感觉在现实社会中很难找到土壤。可以说,现实社会中所经受的差距、不公、委屈又没能及时得到解决,都可以在网络中得到释放,而就是这个特性,网络收获了多少年轻人的青睐,广告都不用打,一款好用的程序就像超级病毒一样,一传十,十传百,百传千,一夜爆红的事情司空见惯。网络给了人们狂欢,而狂欢过后,放下手机,每个人不得不又走进现实,看看钱包,看看工作清单,看看自己吃得,住的,又一轮不满。所以,互联网就像毒品,吸引着一个又一个的社会人,一起构建起了所谓的“网络社会”,然后再根据被看来被大家能接受的使用习惯,筑起了网络规范和衍生品。当这种衍生品能够帮助自己解决实际问题的时候,一款程序也就趋之若鹜,再也没有人能够阻挡。但到底这个程序能保持多久,没人知道,因为每一个互联网公司都有一个大团队天天盯着数据,看着你共享给他们的每一个数据,后台变成了最有意思的地方,说不定在后台的人,每天的日子都会过得很不错,因为他能看到人间百态。
回应 2020-03-09 23:11:46 -
”民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。” 3 数据重构 ”如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域” ”如果男性对一名女性感兴趣,他们可能会下意识地夸大自身的阳刚之气。” ”女性会通过改变声音大小、讲话更加温柔和采取更简短的轮流谈话表达自己对男性的兴趣。” ”当女人使用诸如“大概”或“我猜”这类模棱两可的表达时,就表明她们不...
2020-01-04 14:46:16 1人喜欢
”民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。” 3 数据重构 ”如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域” ”如果男性对一名女性感兴趣,他们可能会下意识地夸大自身的阳刚之气。” ”女性会通过改变声音大小、讲话更加温柔和采取更简短的轮流谈话表达自己对男性的兴趣。” ”当女人使用诸如“大概”或“我猜”这类模棱两可的表达时,就表明她们不大可能喜欢正在约会的男人。” ”如果一个女人使用具有凸显自我性质的表达时,比如“你知道吗”和“我的意思是”这样的说法,就说明她可能喜欢正与她约会的男人。” ”男性可以采用多种说话方式来增加女性喜欢自己的概率” ”如果约会中有人不断提问,那么男女双方都不太可能对对方产生好感” ”美国报纸的所有者主要是为大众提供他们想要的报道,如此他本人就可以越来越富有了” 4 数字吐真剂 ”伟大的企业是建立在许多秘密之上的,这些秘密要么关乎自然,要么关乎人类” ”人们会宣称自己很愤怒,也会贬低一些令人厌恶的东西,但他们仍然会点击、浏览。” 8 数据越多,问题越多?哪些事情不可为 ”做出承诺、博得同情是一个人不会还款最为明显的迹象。” ”提到上帝的人拖欠债务的可能性为不提上帝的人的2.2倍。” ”脸谱网上喜欢莫扎特、雷雨天气和卷曲薯条的人往往智商较高,喜欢哈雷–戴维森摩托车、乡村音乐团体“战前女神”或者“我爱当妈妈”这个页面的人往往智商较低。”
回应 2020-01-04 14:46:16
-
骑羊的兔哥 (不求甚解 杂读书、)
有意思有新意,讲了些反直觉的东西。本书利用一些谷歌的搜索的结果来探秘人类内心的一些真实想法,因为人人都会说谎。这是一种新的有效的社会科学研究方法,大牛平克作序推荐。 前面对色情网站搜索结果的分析令人吃惊啊,恋母、恋父、恋兄妹的那么多啊!不过这也是对于登录pornhub 这类喜欢色情的人群中的分布吧。真正这类人在人群中的占比应该难以统计,不像男同性恋那样可以推算估计约3-5% 。男人对cock的大小在意,对性交时...2019-01-12 11:10:48
有意思有新意,讲了些反直觉的东西。本书利用一些谷歌的搜索的结果来探秘人类内心的一些真实想法,因为人人都会说谎。这是一种新的有效的社会科学研究方法,大牛平克作序推荐。
前面对色情网站搜索结果的分析令人吃惊啊,恋母、恋父、恋兄妹的那么多啊!不过这也是对于登录pornhub 这类喜欢色情的人群中的分布吧。真正这类人在人群中的占比应该难以统计,不像男同性恋那样可以推算估计约3-5% 。男人对cock的大小在意,对性交时间在意,女人则对阴道的气味操心,而且女人对色情片中的暴力更感兴趣!(难以想象啊)
美国也重男轻女,对儿子在智力才能上面搜索得多,对女儿的外貌则关心; 男才女貌,世界文化标准啊。
人人都会说谎,永远不要听人说了什么,而要看他做了什么:小扎当年退出fb 朋友圈动态时,甚至有一大帮反对者,叫嚣他们不愿意成为窥视狂;结果大数据揭示了其实大多数人都想要这个功能!
朋友圈大家晒出来的永远是幸福生活呜里哇,实际关灯吃面就是默默的啦。
相关和因果太难分清了,现在媒体都是拿些相关的东西来混淆视听,真正的因果关系很难判断。 对牛高中分数线的统计有意思,最终结果:牛蛙始终是牛蛙,好学校没啥用;sat分数、学业能力还是一样! 这可是反直觉和反社会传统的啊,特别是现在的中国,对4大名校、衡中等的渴望简直是狂热; 而且延伸到大学,哈佛和宾夕法尼亚大学毕业生10年后的收入 也没太多的区别,精英始终会上升到精英的位置中去的;
维度的诅咒是大数据的一个问题(应该就是以前说的孟加拉的黄油产量能很好的预测美国经济一样吧?) 神预测的391号硬币的比喻不过是有1000个硬币,变量多了,总能找到最拟合的那个。
后面 和劳伦斯-萨默斯的谈话笑人啊,这个有智慧的大人物绕了一大圈,还是想知道作者这种方法是否对股市预测有用否,哈哈。结果却是令人失望的,我想真的发现了有效的预测股市的方法,估计发现者也会敝帚自珍的,如同那些神秘的量化对冲基金一样。
不喜欢的是作者对msl的白左态度,我觉得他没有认清这种宗教病毒meme式的本质。
回应 2019-01-12 11:10:48 -
◆ 绪论 >> 人人都在说谎,唯一的不同就是说谎程度的大小。 >> 谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。 >> 实际上,人们在生活平顺(而非不顺...
2021-05-03 14:57:26
◆ 绪论 >> 人人都在说谎,唯一的不同就是说谎程度的大小。 >> 谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。 >> 实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。 ◆ 第一部分 大数据,小数据 >> 结果令人惊讶。事实证明,先后搜索“背部疼痛”和“皮肤发黄”这两个词条的用户最终都被确诊为胰腺癌患者,而只搜索“背部疼痛”的用户则不太可能得这个病;同样,搜索“消化不良”和“腹痛”这两个词条的用户都被确诊为胰腺癌患者,而只搜索“消化不良”则意味着此人不太可能罹患此病。研究人员可以识别5%~15%的案例,几乎没有误报。 >> 论文中包含大量专业术语,比如KS –检验(Kolmogorov-Smirnov test),不得不承认连我都忘记它是什么意思了。(这是判断一个模型是否和数据准确匹配的方法。) >> 在演说中,乔丹说,他一直努力“关注生活中美好的事物——你知道人们是如何看待你的,你又是如何尊重他们的……而公众又是如何看待你的。停一停,想想你做的事情。这一切都是我的父母教会我的”。 >> 2013年6月,勒布朗·詹姆斯在赢得他的第二个NBA总冠军(后来他又赢得了第三个)后,在电视上接受采访。“我是勒布朗·詹姆斯,”他说道,“来自俄亥俄州的阿克伦,我来自城内贫民区,我甚至都不应该出现在这里。”随后推特和其他社交网络上对他的批评排山倒海。詹姆斯这样一个天赋异禀的篮球天才,年纪很小时就被视为篮球的未来,他怎么可以公然宣称自己是个失败者呢?事实上,任何一个出身贫寒的人,无论其运动天赋如何,成功的机会都很渺茫。换句话说,詹姆斯的成就其实比起初看起来更加超凡。数据同样也证明了这一点。 ◆ 3 数据重构 >> 如果你在一个出现在谷歌之前的受众较广的搜索引擎上搜索“汽车”,就会被彻底淹没在色情网站中。这些色情网站经常在白色背景上用白字输入“汽车”这个词来欺骗搜索引擎。于是,它们从一些本欲购买汽车但被色情内容分散了注意力的人身上获得不少额外点击量。——作者注) >> 首先,或许也是最重要的一点,如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域。 >> 塞德在做的是预测工作,而不是解释工作。在预测工作中,你只需要知道什么东西有用,无须知道为什么。 >> 我们已经了解到文字是数据,点击量是数据,链接是数据,错别字是数据,梦中的香蕉是数据,人的语气是数据,喘息声是数据,心跳是数据,脾脏大小是数据。我认为,搜索是最具启发性的数据。 ◆ 4 数字吐真剂 >> 因此,情况越是与自己无关,人们越诚实。想要得到真实的答案,电话调查比现场调查好,互联网调查比电话调查好。人们独自一人时比和他人在一起时会坦诚许多。 >> 奥巴马似乎说了完全没毛病的话,所有的传统媒体都为奥巴马治愈人心的发言发去贺电,但是来自互联网的新数据(数字吐真剂)则表明这个演讲的效果实际上事与愿违。互联网数据告诉我们,实际上奥巴马的发言并未像人们认为的那样安抚了愤怒的群众,反而点燃了他们心中的怒火。我们认为正在发挥作用的东西可能会呈现与预期效果完全相反的结果。有时我们需要互联网的数据来纠正自我认可的本能。 ◆ 5 放大数据 >> 我们再一次看到,决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年。总体而言,男孩在5~10岁时最容易喜欢一支球队。球迷决定要支持哪支球队时,球队在他8岁时夺冠要比在他19岁或20岁时夺冠重要8倍,因为到那时,他要么已经终其一生都喜爱那支球队,要么就一点儿都不喜欢了。你可能会问,女棒球迷呢?这种模式对女棒球迷则不那么明显,但是女性喜爱一支球队的高峰年龄似乎是22岁。 >> 当我们想弄清楚谁会作假时,关键不是判断谁诚实,谁不诚实,而是要判断谁知道如何作假,谁不知道。 >> 这三座城市中,纽约产出著名记者的概率最大,波士顿产出杰出科学家的概率最大,洛杉矶产出知名演员的概率最大。要记住,我们这里说的都是那里土生土长的当地人,不是后来搬到那里的人。即使将那些父母在那个领域颇有声望的人排除在外,情况也是如此。
回应 2021-05-03 14:57:26 -
闻夕felicity (此时正是修行时)
麻省理工学院已故科学家马文·明斯基(Marvin Minsky)是最早研究人工智能可能性的科学家之一,他认为心理学是因试图模仿物理学而偏离轨道的。物理学成功找到了在任何时候、任何地方都适用的简单定律。 明斯基认为,人脑可能不受此类定律的约束。相反,人脑很可能是一套复杂的黑客系统——其中一部分可以纠正其他部分出现的错误。经济和政治系统可能同样复杂。 因此,社会科学革命不可能以简洁的公式形式出现,如E=MC2。如果有...2020-11-15 11:40:29
麻省理工学院已故科学家马文·明斯基(Marvin Minsky)是最早研究人工智能可能性的科学家之一,他认为心理学是因试图模仿物理学而偏离轨道的。物理学成功找到了在任何时候、任何地方都适用的简单定律。 明斯基认为,人脑可能不受此类定律的约束。相反,人脑很可能是一套复杂的黑客系统——其中一部分可以纠正其他部分出现的错误。经济和政治系统可能同样复杂。 因此,社会科学革命不可能以简洁的公式形式出现,如E=MC2。如果有人说社会科学革命以一个简洁的公式为基础,对此你应该持怀疑态度。 相反,社会科学革命的进程是零敲碎打的,一项研究接着一项研究,一项发现接着一项发现。慢慢地,我们就可以更好地理解人类思想和社会的复杂系统。 我们得出了正确的结论,也指明了未来更多问题的研究方向。
==========
数据分析有着光明的未来。我有强烈的预感下一个金赛会是一名数据科学家,下一个福柯会是一名数据科学家,下一个弗洛伊德会是一名数据科学家,下一个马克思会是一名数据科学家,下一个索尔克很可能也是一名数据科学家
回应 2020-11-15 11:40:29
-
◆ 绪论 >> 人人都在说谎,唯一的不同就是说谎程度的大小。 >> 谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。 >> 实际上,人们在生活平顺(而非不顺...
2021-05-03 14:57:26
◆ 绪论 >> 人人都在说谎,唯一的不同就是说谎程度的大小。 >> 谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。 >> 实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。 ◆ 第一部分 大数据,小数据 >> 结果令人惊讶。事实证明,先后搜索“背部疼痛”和“皮肤发黄”这两个词条的用户最终都被确诊为胰腺癌患者,而只搜索“背部疼痛”的用户则不太可能得这个病;同样,搜索“消化不良”和“腹痛”这两个词条的用户都被确诊为胰腺癌患者,而只搜索“消化不良”则意味着此人不太可能罹患此病。研究人员可以识别5%~15%的案例,几乎没有误报。 >> 论文中包含大量专业术语,比如KS –检验(Kolmogorov-Smirnov test),不得不承认连我都忘记它是什么意思了。(这是判断一个模型是否和数据准确匹配的方法。) >> 在演说中,乔丹说,他一直努力“关注生活中美好的事物——你知道人们是如何看待你的,你又是如何尊重他们的……而公众又是如何看待你的。停一停,想想你做的事情。这一切都是我的父母教会我的”。 >> 2013年6月,勒布朗·詹姆斯在赢得他的第二个NBA总冠军(后来他又赢得了第三个)后,在电视上接受采访。“我是勒布朗·詹姆斯,”他说道,“来自俄亥俄州的阿克伦,我来自城内贫民区,我甚至都不应该出现在这里。”随后推特和其他社交网络上对他的批评排山倒海。詹姆斯这样一个天赋异禀的篮球天才,年纪很小时就被视为篮球的未来,他怎么可以公然宣称自己是个失败者呢?事实上,任何一个出身贫寒的人,无论其运动天赋如何,成功的机会都很渺茫。换句话说,詹姆斯的成就其实比起初看起来更加超凡。数据同样也证明了这一点。 ◆ 3 数据重构 >> 如果你在一个出现在谷歌之前的受众较广的搜索引擎上搜索“汽车”,就会被彻底淹没在色情网站中。这些色情网站经常在白色背景上用白字输入“汽车”这个词来欺骗搜索引擎。于是,它们从一些本欲购买汽车但被色情内容分散了注意力的人身上获得不少额外点击量。——作者注) >> 首先,或许也是最重要的一点,如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域。 >> 塞德在做的是预测工作,而不是解释工作。在预测工作中,你只需要知道什么东西有用,无须知道为什么。 >> 我们已经了解到文字是数据,点击量是数据,链接是数据,错别字是数据,梦中的香蕉是数据,人的语气是数据,喘息声是数据,心跳是数据,脾脏大小是数据。我认为,搜索是最具启发性的数据。 ◆ 4 数字吐真剂 >> 因此,情况越是与自己无关,人们越诚实。想要得到真实的答案,电话调查比现场调查好,互联网调查比电话调查好。人们独自一人时比和他人在一起时会坦诚许多。 >> 奥巴马似乎说了完全没毛病的话,所有的传统媒体都为奥巴马治愈人心的发言发去贺电,但是来自互联网的新数据(数字吐真剂)则表明这个演讲的效果实际上事与愿违。互联网数据告诉我们,实际上奥巴马的发言并未像人们认为的那样安抚了愤怒的群众,反而点燃了他们心中的怒火。我们认为正在发挥作用的东西可能会呈现与预期效果完全相反的结果。有时我们需要互联网的数据来纠正自我认可的本能。 ◆ 5 放大数据 >> 我们再一次看到,决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年。总体而言,男孩在5~10岁时最容易喜欢一支球队。球迷决定要支持哪支球队时,球队在他8岁时夺冠要比在他19岁或20岁时夺冠重要8倍,因为到那时,他要么已经终其一生都喜爱那支球队,要么就一点儿都不喜欢了。你可能会问,女棒球迷呢?这种模式对女棒球迷则不那么明显,但是女性喜爱一支球队的高峰年龄似乎是22岁。 >> 当我们想弄清楚谁会作假时,关键不是判断谁诚实,谁不诚实,而是要判断谁知道如何作假,谁不知道。 >> 这三座城市中,纽约产出著名记者的概率最大,波士顿产出杰出科学家的概率最大,洛杉矶产出知名演员的概率最大。要记住,我们这里说的都是那里土生土长的当地人,不是后来搬到那里的人。即使将那些父母在那个领域颇有声望的人排除在外,情况也是如此。
回应 2021-05-03 14:57:26 -
闻夕felicity (此时正是修行时)
麻省理工学院已故科学家马文·明斯基(Marvin Minsky)是最早研究人工智能可能性的科学家之一,他认为心理学是因试图模仿物理学而偏离轨道的。物理学成功找到了在任何时候、任何地方都适用的简单定律。 明斯基认为,人脑可能不受此类定律的约束。相反,人脑很可能是一套复杂的黑客系统——其中一部分可以纠正其他部分出现的错误。经济和政治系统可能同样复杂。 因此,社会科学革命不可能以简洁的公式形式出现,如E=MC2。如果有...2020-11-15 11:40:29
麻省理工学院已故科学家马文·明斯基(Marvin Minsky)是最早研究人工智能可能性的科学家之一,他认为心理学是因试图模仿物理学而偏离轨道的。物理学成功找到了在任何时候、任何地方都适用的简单定律。 明斯基认为,人脑可能不受此类定律的约束。相反,人脑很可能是一套复杂的黑客系统——其中一部分可以纠正其他部分出现的错误。经济和政治系统可能同样复杂。 因此,社会科学革命不可能以简洁的公式形式出现,如E=MC2。如果有人说社会科学革命以一个简洁的公式为基础,对此你应该持怀疑态度。 相反,社会科学革命的进程是零敲碎打的,一项研究接着一项研究,一项发现接着一项发现。慢慢地,我们就可以更好地理解人类思想和社会的复杂系统。 我们得出了正确的结论,也指明了未来更多问题的研究方向。
==========
数据分析有着光明的未来。我有强烈的预感下一个金赛会是一名数据科学家,下一个福柯会是一名数据科学家,下一个弗洛伊德会是一名数据科学家,下一个马克思会是一名数据科学家,下一个索尔克很可能也是一名数据科学家
回应 2020-11-15 11:40:29 -
闻夕felicity (此时正是修行时)
一般来说,如果有人告诉你他会还你钱,那他很有可能不还了。承诺越是坚决肯定,就越有可能无法兑现。如果有人写下“我保证我一定会还钱,上帝求你帮帮我吧”,他是最不可能还的。激起你的怜悯之心(他解释说,他需要这笔钱,因为他的亲戚在住“医院”)也意味着他不太可能还钱。事实上,提到任何家庭成员(丈夫、妻子、儿子、女儿、母亲或父亲)都是不会还钱的标志。另一个暗示会违约的词是“解释”,意思是说,如果人们试图解...2020-11-15 11:39:51
一般来说,如果有人告诉你他会还你钱,那他很有可能不还了。承诺越是坚决肯定,就越有可能无法兑现。如果有人写下“我保证我一定会还钱,上帝求你帮帮我吧”,他是最不可能还的。激起你的怜悯之心(他解释说,他需要这笔钱,因为他的亲戚在住“医院”)也意味着他不太可能还钱。事实上,提到任何家庭成员(丈夫、妻子、儿子、女儿、母亲或父亲)都是不会还钱的标志。另一个暗示会违约的词是“解释”,意思是说,如果人们试图解释为什么自己能够偿还贷款,那他们很可能不会还款。 研究人员没有理论来说明为什么“感谢”他人是可能违约的证据。
==========
总而言之,根据这些研究人员的研究,一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。不管理由是什么(或者它展示给我们的人性就是,许下承诺实际上是什么事都不会做的信号),学者发现这个测试对预测不会偿还贷款是非常有价值的信息。提到上帝的人拖欠债务的可能性为不提上帝的人的2.2倍。这是一个人不会还款的单项最高指标之一
==========
这就是那个道德问题:企业是否有权根据与其提供的服务不直接相关的抽象统计学预测标准来判断人们是否可以享受其服务呢?
==========
更好的数据也可能导致另一种形式的歧视,经济学家称之为价格歧视。企业常试图确定应该为其商品或服务收取多少费用,理想情况下,他们希望收取客户愿意支付的最大费用。这样,他们就能获得最大的利润。
==========
赌场工作人员认为,每个赌徒都有一个“痛点”。这个“痛点”是赌徒在赌场损失的数额,这个数额大到足以令他害怕,所以在很长一段时间内他都不敢再踏进赌场半步。例如,假设海伦的“痛点”是3 000美元,这就意味着,如果海伦输掉3 000美元,赌场就会失去这位顾客,可能几周或几个月都见不到她;如果海伦输掉2 999美元,她也会不高兴,毕竟没有人喜欢输钱,但是她不会因此意志消沉,第二天晚上还会照样出现在赌场。 想象一下,假如你是赌场的管理者,而海伦就在你的赌场玩老虎机,最佳结果是什么呢?很显然,你想让海伦尽可能地接近其“痛点”却又不超过它。你想让海伦输掉2 999美元,这样你赚得够多,而她又不至于输到自己短时间内不想再回来玩。
==========
换句话说,互联网数据可以告诉企业应避开哪些顾客,又应该剥削哪些顾客;也可以告诉顾客他们应跳过哪些企业,又是哪些企业在试图剥削他们。迄今为止,大数据推动了消费者和企业之间的斗争,但我们必须确保这一斗争公平。
==========
我们应该非常不情愿走到这一步:在犯罪行为发生之前就追究个人的责任。首先,这似乎是对隐私的侵犯。无论是拥有数千或数十万人搜索数据的政府,还是拥有个人搜索数据的警察部门,在他们面前都有一道不可逾越的道德鸿沟。比如搜查某人的住所,在其面前就有一道不可逾越的道德鸿沟。无论是广告预防自杀,还是违背他人意愿将其送进精神病院,在其面前仍然有一道不可逾越的道德鸿沟。 然而,谨慎使用个人数据的理由甚至是超出道德层面的,还有一个数据理由。从试图预测一座城市的行为到试图预测一个人的行为,对数据学家来说是一个巨大的难题。 让我们暂且回到自杀的话题。每个月,美国有大约350万次搜索与自杀相关,其中大多数都透露出自杀的想法,例如“想自杀”“实施自杀”“如何自杀”。[6]换句话说,每个月每100个美国人中就会有不止一次自杀的相关搜索。这让人想起哲学家尼采的一句话:“自杀的想法是一个很大的安慰,凭借它可以熬过无数个黑夜。”谷歌搜索数据显示,自杀的想法真实存在且十分普遍,但是,每个月美国的自杀人数不到4 000。自杀的想法非常普遍,自杀行为却并非如此。因此,尽管有人在网上大呼小叫地喊着想一枪崩了自己的脑袋——如果不是出于这个原因,警察又怎么会专程赶去这些人家呢——也没有必要天天守在他们家门口,那样做没什么意义。
回应 2020-11-15 11:39:51
当前版本有售 · · · · · ·
这本书的其他版本 · · · · · · ( 全部6 )
-
Dey Street Books (2017)8.1分 294人读过
-
商周出版 (2017)6.7分 20人读过
-
Bloomsbury Publishing (2017)暂无评分 6人读过
-
HarperLuxe; Lgr (2017)暂无评分 2人读过
以下书单推荐 · · · · · · ( 全部 )
- 【书】所谓知识的另一种 (自娱者小五)
- 【书】意趣有点古怪 (自娱者小五)
- 好奇心日报的推荐书单2019 (Dao里个Dao)
- 数据科学与人工智能 (lyb)
- 【书】这天下 (自娱者小五)
谁读这本书?
二手市场
订阅关于人人都在说谎的评论:
feed: rss 2.0
0 有用 闻夕felicity 2020-11-15 09:20:42
大数据寻找相关性的方法、问题、反直觉的发现、轶事、前景。可读性很高。
3 有用 泗水之滨 2019-03-23 22:38:39
主要是本讲大数据的应用和局限性的书,里面很多结论都超级颠覆认知
4 有用 東寫西讀 2019-01-05 11:39:47
人们之所以(对朋友、对调查、对自己)说谎,是为了让自己看起来更好一些。这个世界也在通过向我们提供错误误导性的数据对我们说谎。通过巧妙地运用自然试验,我们可以发现什么是真正有用的,什么是无用的。这些试验证明了大数据能够替代猜测、传统智慧,当我们凭借亲身经历来判定这个世界的运作模式时,通常都会出错,虽然数据科学方法是具有直觉性的,但其结果多是反直觉的,数据科学采用既具本能性又具直觉性的人工流程并向其注... 人们之所以(对朋友、对调查、对自己)说谎,是为了让自己看起来更好一些。这个世界也在通过向我们提供错误误导性的数据对我们说谎。通过巧妙地运用自然试验,我们可以发现什么是真正有用的,什么是无用的。这些试验证明了大数据能够替代猜测、传统智慧,当我们凭借亲身经历来判定这个世界的运作模式时,通常都会出错,虽然数据科学方法是具有直觉性的,但其结果多是反直觉的,数据科学采用既具本能性又具直觉性的人工流程并向其注入更多功能,我们可能会看到这个世界的运作方式与之前想象的完全不同。本书作者作为数据科学家通过分析搜索浏览数据,了解人们真实的意图和欲望。事实证明,人们借助互联网搜索各种信息行为本身就是信息,它真实反映了人的想法、欲望、恐惧,通过对大数据的分析,真实世界与我们想象的世界也许有着天差地别的颠覆性认知差异 (展开)
10 有用 Della 2019-07-16 05:59:38
看这本书的几点收获。第一,川普的当选很可能是奥巴马成为史上第一位黑人总统的续集。作者发现对nigger(黑鬼)的谷歌搜索频率分布和川普的获胜州高度吻合。这位美国总统上台最决定性的因素是种族歧视。白人群体在黑人总统任下产生的补偿需求强化了他的优势。第二,社会科学在大数据的帮助下也许有机会符合波普尔对科学的可证伪性规范。看完的一点个人小感想,当我们心情愉悦的时候也许倾向于在社交媒体上晒幸福,而失落受挫... 看这本书的几点收获。第一,川普的当选很可能是奥巴马成为史上第一位黑人总统的续集。作者发现对nigger(黑鬼)的谷歌搜索频率分布和川普的获胜州高度吻合。这位美国总统上台最决定性的因素是种族歧视。白人群体在黑人总统任下产生的补偿需求强化了他的优势。第二,社会科学在大数据的帮助下也许有机会符合波普尔对科学的可证伪性规范。看完的一点个人小感想,当我们心情愉悦的时候也许倾向于在社交媒体上晒幸福,而失落受挫时会向搜索引擎求助。所以基于谷歌搜索作为大数据挖掘出来的世界也许很真实,但是却是我们偏向阴暗的那部分真实。世界的全貌比作者的数据描绘的要美丽一点。 (展开)
0 有用 甚小望远镜 2019-04-21 15:59:01
不错
0 有用 阙勒霍多 2022-07-04 09:13:35
数据这个事情其实不靠谱的,只能说明那个时期是这样的,如果你再放大看简直没有什么意义
0 有用 Mr shi 2022-07-03 22:22:07
通过搜索引擎来分析事物结果的观点与方法在成书之时较为新颖,如今已非常普通。本书叙述较为啰嗦无聊,不推荐。
0 有用 邱兔兔 2022-06-30 10:22:36
还不错,比较明快的一本书。 确实有点如作者所说,有点像《魔鬼经济学》,不过是从数据科学的角度。 除了搜索常用词的处理外,很想知道作者是用什么方法实现这些研究的。
0 有用 月落星沉 2022-06-14 01:32:08
有一些问题拥有的是反直觉的答案,这是数据带给我们的真相,也是研究大数据的价值。 大数据既可以帮助找到让社会变得更好的方式,也能为商人所用,更大程度地榨取消费者的利益。 在互联网高速发展的今天,数据科学日益被重视,作者用本书告诉我们,数据科学是一门真正的科学,不是软科学,不是伪科学。
0 有用 微笑 2022-06-13 20:43:46
太啰嗦了,看不下去了