18 驾驭直觉预测 Taming Intuitive Predictions
生活为我们提供了许多预测的机会。经济学家预测通货膨胀和失业率,金融分析师预测收益,军事专家预测伤亡人数,风险投资家评估盈利能力,出版商和制片人预测读者和观众,承包商估计完成项目所需的时间,厨师预估菜单上菜肴的需求,工程师估计建筑所需的混凝土量,消防指挥官评估救火所需的消防车数量。在我们的个人生活中,我们会预测伴侣对搬家提议的反应,以及自己对新工作的未来适应情况。
一些预测性判断,比如工程师所做的判断,很大程度上依赖于从表单中查找需要的数据、精确的计算和对类似情况下观察到的结果的明确分析。其他则涉及直觉和系统 1,这种预测性判断可以分为两种主要类型。一些直觉主要基于重复经验所获得的技能和专业知识。加里·克莱因(Gary Klein)在《如何做出正确决策》(Sources of Power) 和其他地方描述的国际象棋大师、消防指挥官和医生的迅速且自动的判断和选择,就说明了这些基于专业技能的直觉,由于从当前的情境中识别出了熟悉的线索,所以当前问题的解决方案会很快出现在他们的脑海中。
其他直觉,虽然有时在主观上与第一种直觉难以区分,但却是源于启发法的运作,这些启发法经常用一个简单的问题替代被问到的更难的问题。即使直觉判断是基于对不充分证据(weak evidence)的未考虑回归的评估,人们仍然可以对判断非常有信心。当然,这并不是说判断要么基于判断、要么基于直觉。事实上,许多判断,尤其是专业领域的判断,往往受到分析和直觉的共同影响。
不考虑回归的直觉
NONREGRESSIVE INTUITIONS
让我们回到我们之前已经见过的一个人:
朱莉目前是一所州立大学的大四学生。她四岁时就能流利地阅读。你估计她的GPA(平均绩点)会是多少?
熟悉美国教育体系的人很快就会想到一个数字,通常在 3.7 或 3.8 左右。这是怎么发生的?系统 1 的几个运作都参与了这个过程。(How does this occur? Several operations of System 1 are involved.)
- 首先,人们会在证据(朱莉很小就能阅读)和预测目标(她的 GPA)之间寻找因果联系。这种联系可以是间接的。在这个例子中,很小就能阅读和 GPA 分数高都是学习天赋的体现。它们之间肯定存在某种联系。你(你的系统 2)很可能会认为,朱莉赢得飞钓比赛或在高中时擅长举重与我们的预测目标(她的 GPA)无关,因此会拒绝这类无用的证据信息。这个过程实际上是一个二分法的过程,它只会将信息分为相关或者无关,没有第三种状态。我们能够将信息视为无关的或者错误的,但依据证据的细微缺陷调整证据和预测目标之间的相关度,并不是系统 1 能够做到的事情。因此,直觉预测对证据的实际预测质量几乎完全不敏感。一旦找到某种联系时,比如朱莉很小就能阅读,“你所看到的就是全部”(WYSIATI)就会发挥作用:你的联想记忆会迅速且自动地从可用信息中构建最可能的故事。
- 接下来,根据相关标准对证据进行评估。一个四岁就能流利阅读的孩子有多早慧?哪个相对排名或百分位数才能与这一成就匹配?与这个孩子进行比较的群体(我们称之为参考群体)并没有被明确指定,但这也是日常对话中的惯常做法:如果有个大学毕业的人被描述为 “非常聪明”,你很少需要问:“当你说‘非常聪明’时,你想到的是哪个参考群体?”
- 下一步涉及替代和强度匹配。基于童年时期认知能力的不可靠证据(flimsy evidence)所做的评估,被替代为 GPA 问题的答案。朱莉的 GPA 和她很小就能阅读的成就被赋予相同的百分位数。
- 题目要求答案必须以 GPA 的形式呈现,这就需要另一个强度匹配操作,从对朱莉的学业成就的总体印象转换为一个具体的 GPA 分数,这个分数要与她的天赋证据相匹配。所以,最后的步骤是转换,将对朱莉相对学业水平的印象转换为一个相应的 GPA 分数。
强度匹配产生的预测与其所依据的证据一样极端,导致人们对两个完全不同的问题给出了相同的答案:
朱莉在阅读早慧方面的百分位数是多少?
朱莉的 GPA 百分位数是多少?
现在你应该很容易识别出所有这些运作都是系统 1 的特征。我在这里以一个有序的步骤列出了它们,但联想记忆的活化扩散当然不是这样工作的。你应该想象一个这样的活化扩散过程,这个过程最初是由证据和问题触发,通过循环反馈的过程达成自我强化(feeds back upon itself),最终收敛于(settles on)一个最有可能的、最具连贯性的解决方案。
我和阿莫斯曾要求试验参与者根据描述,对八名大学新生进行判断。这些描述据称是某位辅导员根据对入学新生进行的访谈所写。每个描述包含五个形容词,例如:
聪明、自信、博览群书、勤奋、好问
我们要求一些参与者回答两个问题:
这个描述在学习能力方面给你留下了多深的印象?
你认为有多少比例的新生描述会给你留下更深的印象?
这些问题要求你通过将描述与你心目中辅导员对学生描述的标准进行比较,从而对证据进行评估。这种标准的存在本身就非常了不起。虽然你肯定不知道自己是如何形成这种标准的,但你对这个描述传达的热情程度有相当清晰的感受:辅导员认为这个学生不错,但算不上出类拔萃。他还可以使用比聪明(才华横溢、富有创造力)、博览群书(学识渊博、博学多才、知识渊博)和勤奋(充满热情、完美主义者)更强烈的形容词来描述。因此可以得出结论:这个学生很可能排进前 15%,但不太可能排进前 3%。这种判断具有高度的一致性,至少在有相同文化背景的人中如此。
我们实验中的其他参与者被问到了不同的问题:
你估计这个学生将获得的 GPA 是多少?
有多少比例的新生会获得更高的 GPA?
你需要再看一遍才能发现这两个问题之间的细微差别。虽然两者之间的差别本应很明显,但实际上却并非如此。与第一个问题仅要求你对证据进行评估不同,第二个问题涉及到很大的不确定性,它指的是大一结束时的实际学业成绩。自访谈后,这一年发生了什么?仅凭这五个形容词,你能多准确地预测这位学生大一学年的实际成绩?如果做访谈的辅导员自己预测 GPA,她的预测会完全准确吗?
这项研究的目的是比较参与者在一个案例中评估证据和在另一个案例中预测最终结果时所做的两个百分位判断。结果很容易概括:两个判断是相同的。尽管这两个问题不同(一个是关于描述的,另一个是关于学生的未来学业表现的),但参与者却将其混为一谈。与朱莉问题的情况一样,对未来的预测并没有与对当前证据的评估区别开来——预测与评估的结果是一致的。这或许是我们拥有的关于替代作用的最有力证据。人们被要求做出预测,但他们却用评估证据来代替,并没有注意到他们回答的并不是被问到的那个问题。这个过程保证会产生有系统性偏差的预测;它们完全忽略了回归均值现象。
在以色列国防军服役期间,我曾被分配到一个单位(unit),该单位通过一系列面试和实地测试来挑选军官培训的候选人。成功预测的指定标准是学员在军官学校(officer school)的最终成绩与在单位所做的评级相符。这些评级的有效性是众所周知的差(我将在后面的章节中详细介绍)。多年后,我已经成为一名教授并与阿莫斯合作研究直觉判断时,这个单位依然存在。我和该单位的人有良好的联系,于是请他们帮了个忙。除了他们用来评估候选人的常规评分系统之外,我还要求他们对每位未来学员在军官学校(officer school)将获得的成绩做出最合理的猜测。他们收集了几百份这样的预测。做出预测的军官对单位(school)评价学员时采用的字母评级系统,以及其中每个等级( A、B 等)的大致比例非常熟悉。结果令人印象深刻:预测中 A 和 B 出现的相对频率与单位(school) 给出的最终评级中 A 和 B 出现的频率几乎相同。【孙芜菁注:这段和下面分别出现了unit、school,officer school. 如果将school 理解为 officer school 则逻辑有问题。如果将school 和 unit 理解为一致的,则逻辑看起来是正确的。结合上下文,我认为这里的 school 可能是笔误了,也可能是因为他们将这个unit 即称为school 也称为 unit。所以在笔记中,我将school 也翻译为 “单位”】
这些发现为替代和强度匹配提供了令人信服的例证。提供预测的军官完全没能区分开这两项任务:
- 他们通常的任务,是评估候选人在单位期间的表现
- 我要求他们执行的任务,是对未来成绩做出真正的预测
他们只是简单地应用强度匹配将自己单位给出的评级转换到了军官学校使用的评分体系上。再一次,他们还是没有考虑到预测的(相当大的)不确定性,导致他们的预测完全没有考虑到回归性。
对直觉预测的修正
A CORRECTION FOR INTUITIVE PREDICTIONS
回到朱莉,我们早慧的阅读者。预测她 GPA 的正确方法在上一章已经介绍过。正如我在那里对连续两天的高尔夫球比赛,以及对体重、钢琴演奏水平所做的那样,我为决定阅读年龄和大学成绩的因素写了一个示意性公式:
阅读年龄 = 共有因素 + 阅读年龄特有因素 = 100%
GPA = 共有因素 + GPA 特有因素 = 100%
共有因素包括基因决定的天资、家庭对学习兴趣的支持程度,以及任何其他可能导致人在孩童时期成为早慧的阅读者,并在成年早期(young adults)学业有成的东西。当然,还有许多因素只会影响其中一项,而不会影响到另一项。朱莉可能是被望女成凤的父母逼着早早学会了阅读;她可能有过一段不幸的恋爱经历,导致她大学成绩下滑;她可能在青春期发生过滑雪事故,导致她的学习能力受损(left her slightly impaired);等等。
回想一下,两个变量之间的相关度——在本例中是阅读年龄和 GPA——等于其决定因素中共有因素的比例。你对这个比例的最合理的猜测是多少?我最乐观的猜测是大约 30%。假定就是这个值(Assuming this estimate),那么我们就拥有了做出无偏预测所需的一切。以下是如何做出无偏预测所需的四个简单步骤:
- 先估计出 GPA 的平均值。
- 根据你对证据的印象,确定一个与其匹配的 GPA。
- 估计你的证据和 GPA 之间的相关度。
- 如果相关度为 0.30,那么从平均值出发,向与证据匹配的 GPA 方向移动两者差值的 30%。
第 1 步让你得到预测基线(baseline),即如果你除了知道朱莉即将毕业之外,对她一无所知,那么你会预测的 GPA。在没有任何信息的情况下,你应该用这个平均值作为她 GPA 的预测值。(这类似于在你缺少汤姆的具体信息时,你会认为他毕业于工商管理专业的概率就是这个专业毕业生的基准概率一样)。第 2 步是你的直觉预测,它与你对证据的评估相匹配。第 3 步把你从预测基线带向你的直觉预测,但允许移动的幅度取决于你对相关度的估计。在第 4 步,你最终得到一个更接近平均值的预测,这个预测受到你直觉的影响,但更加保守。
这种预测方法是通用的。只要你做的是数值预测(a quantitative variable),如 GPA、投资利润或公司成长,你就可以运用它。这种方法建构在你的直觉之上,但会对你的直觉进行修正,让其向平均值回归。当有充分的理由相信你的直觉预测的准确性时——证据和预测之间有很高的相关度——那么调整的幅度会很小。
直觉预测之所以需要修正,是因为它们没有向均值回归,因此是有偏差的。假设我预测锦标赛中每个高尔夫球手第二天的成绩将与第一天的成绩相同。这个预测没有考虑到回归均值现象:第一天表现好的选手第二天的平均表现会变差,而表现不佳的选手第二天大多有所提高。当最终将预测结果与实际结果进行比较时,会发现没有考虑回归的预测是有偏差的。平均而言,这种预测对第一天表现出色的选手来说会过于乐观,对于那些开局不利的选手来说则会过于悲观。预测和其证据一样的极端。同样,如果你用孩童时期的成绩来预测大学成绩,而没有让你的预测结果向均值回归,那么早慧阅读者的大学成绩通常会令你失望,而那些较晚才能阅读的人的大学成绩通常会让你感到惊喜。经过修正的直觉预测消除了这些偏差,因此修正后的预测值不再有明显的倾向性,高估和低估真实值的情况基本相当。即使你的预测是无偏的,你的预测结果仍然会有错误,但错误较小,并且它不偏向高估、也不偏向低估。
为极端预测辩护?
A DEFENSE OF EXTREME PREDICTIONS?
在前面我引入了汤姆,以说明对离散结果的预测。比如,预测所学的专业是计算机还是工商管理,考试是通过了还是没通过。这些预测通常通过为特定事件分配一个概率(或在某种情况下,是通过将结果从最可能到最不可能排序)来表达的。我也描述了一种程序,它可以对抗离散预测中的常见偏差:忽视基准概率和对信息质量的不敏感。
我们发现,当预测一个连续型变量(如 GPA 或公司收入)时出现的偏差,与判断离散结果出现的概率时观察到的偏差类似。
修正方法也很类似:
- 两种情况都包含一个预测基线,即对当前情况没有任何具体信息时,你会做出的预测。在预测结果是离散型变量的情况下,预测基线是基准概率。在预测结果是连续型变量的情况下,预测基线是相应类别中所有样本的的平均值。
- 两种情况都包含一个直觉预测值,即你脑海中浮现的那个数字,无论是概率还是 GPA。
- 在这两种情况下,你的目标都是做出介于预测基线和直觉预测值之间的预测。
- 在没有有用证据的情况下,你会默认使用预测基线作为预测值。
- 在另一种极端情况下,你也会坚持你的初始预测。当然,只有在对支持你初始预测的证据进行严格检验之后,你仍然对其充满信心的情况下,才会出现这种情况。
- 在大多数情况下,你会发现自己有理由怀疑你的直觉判断与事实之间的相关性不是完全的,因此你的最终预测将介于预测基线和直觉预测值之间。
通过这个方法,可以得到恰当的统计分析产生的可能结果的近似值。如果成功运用它,它会引导你做出无偏预测,得到合理的概率评估和更稳健的数值预测。无论是这里描述的简化方法,还是更正式的统计分析(The two procedures),目的都是为了解决相同的偏差:直觉预测往往过度自信且过于极端。
修正你的直觉预测是系统 2 的任务。找到相应的参考类别、估算预测基线和评估证据的质量,需要付出巨大的努力。只有当事关重大并且你非常渴望避免错误时,付出这样的努力才是合理的。此外,你应该知道,修正你的直觉可能会让你的生活变复杂。无偏预测的一个特点是,只有在信息非常充分可靠时(when the information is very good),才允许预测罕见或极端事件。如果你希望你的预测具有较高的可信度,你就永远不应猜测一个罕见或远离平均值的结果。如果你的预测是无偏的,你就永远无法体会准确预测到极端事件所带来的喜悦(you will never have the satisfying experience of correctly calling an extreme case)。当你最优秀的法学院学生成为最高法院大法官,或者当你认为非常有前途的初创企业最终取得巨大商业成功时,你永远无法说:“我早就知道会这样!”。由于证据的局限性,你将永远无法预测一名优秀的高中生将在普林斯顿大学获得全 A 的成绩。出于同样的原因,风险投资家也永远不会被告知初创企业在早期阶段的成功概率会 “非常高”。
必须认真对待那些反对修正直觉预测的观点(The objections to the principle of moderating intuitive predictions must be taken seriously),因为没有偏差并不总是最重要的。如果所有预测错误不论其方向如何都同等重要,那么偏好无偏预测才是合理的。但是,有些情况下,一种错误比另一种错误要严重得多。当风险资本家寻找 “下一个大事件 ”时,错过下一个谷歌或 Facebook 的风险,远比适度投资一家最终失败的初创企业的风险要严重得多。风险投资家的目标是正确预测极端成功的案例,甚至不惜以高估许多其他风险投资项目的前景为代价。对于发放大额贷款的保守银行家来说,单个借款人破产的风险可能大于拒绝几个愿意履行义务的潜在客户的风险。在这种情况下,使用极端的语言(“前景非常好”、“有严重的违约风险”)可能有一定的合理性,因为这种极端语言可以给人带来心理上的安全感,即使这些判断依据的信息的有效性一般。
对于一个理性的人来说,公正且适度的预测应该不是问题。毕竟,理性的风险投资家知道,即使是最有前途的初创企业也只有适度的成功机会。她认为自己的工作就是从现有选项中选择最佳投资,因此觉得没有必要对她计划投资的新创企业的前景自欺欺人。同样,理性的人在预测公司的收入时,也不会局限于一个单一的数字,他们应该考虑到最可能结果的不确定性范围。如果成功的回报足够大,一个理性的人也会给一个非常有可能失败的企业投资大量资金,而不会在成功的可能性上自欺欺人。然而,我们并不都是理性的,扭曲的估计会给人带来心理上的安全感,有些人可能需要这种安全感来避免陷入瘫患。然而,如果你选择通过接受极端的预测来欺骗自己,那么你最好意识到自己的自我放纵。
或许我提出的修正方法最有价值的贡献在于,它们会要求你思考你对某事的了解程度。我将使用一个学术界耳熟能详的例子,但它有很好的适用性,可以直接应用到生活中的其它领域。一个系计划聘请一位年轻教授,希望选择一位科研前景最光明的人。招聘委员会已将选择范围缩小到两名候选人:
金姆最近刚完成了她的研究生学业。她的推荐信非常出色,她在演讲中也表现出色,并在面试中给所有人留下了深刻印象。然而,她没有实质性的科研成果记录。
珍妮在过去三年里一直担任博士后职位。她的科研成果丰硕,研究记录也相当优秀,但她在演讲和面试中的表现却不如金姆那么耀眼。
直觉的选择倾向于金姆,因为她给人留下的印象更深刻,也因为“你所看到的就是全部”(WYSIATI)这种偏差的作用。但是关于金姆的信息比珍妮的少得多。我们又回到小数法则。实际上,与珍妮相比,金姆的信息样本小得多,而极端的结果在小样本中更有可能被观察到。小样本的结果中存在更多的运气成分,因此在预测金姆的未来表现时,你应该将对她的预测向平均值回归的幅度更大一些。当你考虑到金姆可能比珍妮回归得更多这一事实时,你可能最终会选择珍妮,尽管你对她的印象不如对金姆那么深刻。在学术选择的背景下,我会投票给珍妮,但这将是一场与我直觉印象的斗争,因为我直觉上认为金姆更有前途。遵循直觉比违背直觉更自然,也更令人愉悦。
你可以很容易地想象不同情境(contexts)下的类似问题,例如,风险投资家要在两家运营于不同市场的初创企业之间进行投资选择。其中一家初创企业的产品需求可以相当精确地估算出来。另一家候选企业更令人兴奋,直觉上也更有前途,但它的前景却不那么确定。当把不确定性因素考虑在内时,对第二家初创企业的前景的最合理的猜测是否仍然更胜一筹,这是一个值得仔细考虑的问题。
从双系统的角度看回归
A TWO-SYSTEMS VIEW OF REGRESSION
极端预测和愿意从不充分证据(weak evidence)中预测罕见事件都是系统 1 表现出来的特征。联想机制很自然地会将预测的极端程度与其所依据的感知极端程度相匹配(It is natural for the associative machinery to match the extremeness of predictions to the perceived extremeness of evidence on which it is based),这正是替代机制的工作方式。系统 1 产生过度自信的判断是很自然的(And it is natural for System 1 to generate overconfident judgments),因为正如我们所见,自信是由你能从手头的证据中讲述的最合理的故事的连贯性决定的。请注意:你的直觉会给出过于极端的预测,而你会倾向于给予它们过多的信任。
回归均值的概念对于系统 2 来说也是一个难题。这个概念本身就很奇怪(alien),难以传达和理解。高尔顿在理解它之前也经历了一段艰难的时期。许多统计学老师害怕教授关于回归的课程,他们的学生对这个重要概念最终往往也只是有一个模糊地理解。理解回归现象需要对系统 2 进行专门的训练(This is a case where System 2 requires special training.)。将预测与证据相匹配不仅是我们的一种直觉反应,似乎还是我们的一种理性选择(Matching predictions to the evidence is not onlysomething we do intuitively; it also seems a reasonable thing to do.)。我们不能从经验中学会理解回归。正如我们在飞行教官的故事中看到的那样,即使发现了回归,它也会被赋予一种几乎总是错误的因果解释。
关于直觉预测:
- 那家初创企业取得了出色的概念证明,但我们不应该期望他们未来表现也会同样出色。他们距离正式产品面世还有很长的路要走,出现回归均值的可能性很大。
- 我们凭直觉做出的预测非常好(Our intuitive prediction is very favorable),但它可能太乐观了。让我们考虑证据的强度,并将预测向均值回归。
- 虽然最有可能的猜测是会投资失败,但这项投资仍可能是一个好主意。我们不要说我们真的相信它是下一个谷歌。(“The investment may be a good idea, even if the best guess is that it will fail. Let’s not say we really believe it is the next Googl
孙芜菁对本书的所有笔记 · · · · · ·
-
16 原因胜过统计数据 Causes Trump Statistics
请考虑下面的场景,并凭直觉回答问题。 晚上发生了一起出租车肇事逃逸事件。 这座城市有两家...
-
17 回归均值 Regression to the Mean
在向以色列空军的飞行教官们教授有效训练的心理学知识时,我曾有过一次顿悟,这是我职业生涯...
-
18 驾驭直觉预测 Taming Intuitive Predictions
-
19 理解的错觉 The Illusion of Understanding
第 19 章 理解的错觉 The Illusion of Understanding 交易员、哲学家、统计学家纳西姆·塔勒...
-
第 20 章 效度错觉 The Illusion of Validity
系统 1 被设计用来从蛛丝马迹中迅速得出结论,并且不用关注过程是否合理。因为 “所见即全部...
说明 · · · · · ·
表示其中内容是对原文的摘抄