无知的惩罚
奖励并不惩罚,无知才惩罚。——马克·土温。
一
Alfie Kohn主要是针对pop behaviorism提出批评。这种观点认为,通过正强化和负强化就能搞定一切,或,换句话说,我们唯一只能用正或负强化来搞定别人。
Khon提到Skinner的一些观点,认为人是环境和基因的产物。这句话显然没错。人可不是基因和环境的产物,还能从哪儿来?Skinner又说,不存在一个人,只存在一个行动的集合。实际上,这个观点也没有错。我们把一个人拆开来看,可不是一堆事件的集合吗?从一个精子和一个卵子没有相遇的时候开始,一直到一个人的死亡,都是事件。当然,这么说的话,整个宇宙都是事件集。Carlo Rovelli在The Order of Time中说,连时间都不存在。不存在事件以外的其他存在。但是,Skinner接着说,不存在自我,不存在人。这个就有点值得商榷。因为,在某种意义上,这个说法是对的,但是并不是全对。Kohn反驳说,这就是否定了人的本质。Khon就是错的,他犯了essentialism的错误。人有什么本质?他说,我们通常用来定义人的本质的那些东西。什么东西?我们就不得不谈意识,动物没有;谈理性,动物没有。那么问题就来了,动物和植物是不是有不同的本质?家里养的鱼和狗是不是有不同的本质?这就一路走到了本质主义的错误。道金斯说,这就是从兔子身上看到一种本质:“兔”,Dennett说这是从金子身上看到本质“金”。这是我们人类创造出一种概念,然后又被这种概念引入歧途的例子。Skinner还说,一切事件都是偶然的产物。就像雪崩的时候,一片雪花最终会停留在什么地方。这个看法,和EO Wilson的错误一样。
Skinner,和其他一些行为主义者,因此就有一种极端化的倾向,认为一切都是刺激-反应。而通过重复性提供一种刺激,就能引发一种重复的行为。这当然是个真理。就像给狗喂食物,每当铃声或灯光亮起的时候,狗的口水就流下来了。废话,这狗又不是智障。当然,让行为主义者得意的部分是:铃声和灯光不是食物,而且你流口水,我也可以不给你食物,你还是智障。这种看法是一种虚假的得意。不妨以Alfie Kohn自己的反抗来说明:他说,他写了一篇文章,说老鼠通过拉杠杆强化一个实验人员的投喂行为。就像是说,如果你们家孩子做作业就得5块钱。有一天你没给,下次他就不做了。然后你不得不给,你答应给他才又做。他就是在强化你的奖励行为。
这就是Kohn所说的“punished by rewards”的意思。奖励最终带来了坏后果。但是他的这个观点也不完全对。pop behaviorism的错误在于,以为通过一种强化的手段,主要是奖励,来引发人们的一种行为上的变化。确实,奖励带来了行为上的变化。但是,他们实际上是想要一种长期、永久的变化。现在,Kohn所批评的就是这个,他说,奖励没有带来想要的变化,反而带来了不想要的变化。这就是他说的奖励的惩罚。
二
奖励和惩罚,Khon称之为extrinsic motivators。我称之为外部的环境信息或线索。也就是说,是外在环境中的一个好的诱饵,或一种坏的威胁。好的诱饵,自然会引发人们的某种行为。坏的威胁反之。那么,从这个意义上说,奖励和惩罚自然会引发人们行为上的改变。除非是智障。前面别人挖了个坑,你还非往里跳。人本能趋利避害。有奖励自然就上,有惩罚自然就避。
问题是,为什么行为主义真以为能长期改变个体行为?是因为真的不是单次出现这种行为。比如狗,经常响铃或亮灯,狗看见响铃和亮灯就流口水。本来狗没有这样。很矜持。现在它变了。但是这难道不是应该的吗?狗又不傻。就像我们,看到一只豹子的头,从草丛中伸出来。如果有一个人觉得,只是一个头,应该没有危险。那他活该被吃。聪明的都知道,头下面,肯定还跟着身体和四肢,当然还应该有一条尾巴。这狗也是一样。这是智能的一种工作方式。我们的智能,不是进行全部计算,而是进行部分计算。其他的部分呢?其他的部分是自动计算。自动计算,就得有一套工具。如果全部重新计算,理想上,就不会出现错误。但是如果纳入自动计算,就会出现错误。因为,自动计算无法事无巨细全部考虑,而只计算部分线索。毕竟,如果有人骗你,就放出一个木棍上面顶一个豹子头。或者,是林冲站在草丛里。你会怎么想?这就导致一些错误的出现,甚至非常奇怪的错误。就像我们人类的一些认知偏差。这就是我们智能的工作方式。
就像是说,如果你有个孩子,你每次周六他做完作业都给他金钱奖励。那么,这个周六,他昨晚作业,也期待有同样的奖励。只不过,他的口水没有流出来;但是,他会找你要。这就是智能的工作方式。那么,造成了什么结果呢?就是我们会把一些环境或过程,变成一种自动化。就像我们弹吉他、打字,我们称之为“肌肉记忆”,其实是程序记忆,就是一种自动化过程。对于环境也是一样。正是因为这种自动化,给行为主义带来了一种“长期持久”改变的错觉。就像我们学会一样东西,需要很久才消去。这是因为我们的大脑就是这样工作的。不是说,今天用,今天有。明天不用,明天就抹去了。我们的神经没有这么灵活。这么灵活,那得多高的智能呀。我们的智能,都是慢慢磨出来的,就像坎德尔提到的记忆,我们背单词,反复冲击神经,最终神经终于通过蛋白质,在你脑中建造了一个凸起,这个凸起就是你这个单词,你终于记住了。反过来说,如果像我们这种弱智水平,如果听到什么都记住,那大脑就是一个巨大的垃圾场。
所以说,奖励或惩罚,仅仅用于当场阻止、引发一个行为。阻止次数多了,也会引发一种对应的行为上的改变,就像流口水的狗。但是,这是一种针对环境的反应。就像路口走红绿灯,我们看了绿灯行,不是我们自己想行;看了红灯停,不是我们自己想停。这是因为,你不停不走都有惩罚。那么,在沙漠里,你看到一个红绿灯,你就不会停或走。或者,平时你也一点都不想念红绿灯。这就是Kohn所提到的忧虑,他说,在学习、做人上,仅仅用奖励和惩罚引出一种行为不够,而是要塑造人的品质,内在的态度、价值观。
三
广义上来说,没有什么不具有操纵性。有些人我们见了,不自觉面带微笑,甚至还上去打招呼,甚至我们还对她们好,实际上都是在“操纵”,因为我们的这些做法,实际上都用于引发对方的特定行为,即跟我们好。但是,我们不会认为这是操纵。比如说,我们遇到和我们礼貌说话的人,我们就会感觉好;遇到不礼貌的人,感觉就会不好。这些,都是对方的行为引发的我们的反应。通常,我们不认为是操纵,因为我们实际上会审查对方的目的。推销人员、商场销售,都会对我们友好相待,笑脸相迎、说话好听,但是我们并不买账。我们去星巴克,星巴克的工作人员会打招呼:中午好。但是我看到很少有人回应。但是对同事、朋友或上司的招呼,人们一定积极回应。也就是说,实际上是目的或动机,决定了我们判断一种行为是否妥当,这些行为作为手段本身是中性的。
我们是否有一个内在的人的本质?不用谈本质。我们仅仅需要知道,我们有一种内在的智能结构就行了。当我们用外在环境线索来诱发一个人的行为的时候,仅仅是诱发这个人的行为。比如一个细长的东西,可能让人吓得一跳。这就是反应的触发。但是,如果我们是教育孩子,我们往往希望孩子持续做出某种行为。持续行为最好的动力,不是外在持续的引诱,而是个体内在有一个模块持续的推动。比如说读书,我们可以威胁、引诱孩子读书。但是,这是一个事倍功半的做法。假如能让孩子自己喜欢读书,我们就是威胁、引诱孩子不要读书,也很难奏效。
行为主义不知道为什么忽略了人的内在智能模块。可能是对弗洛伊德这些心理流派的一种强烈的反感导致的一种偏激。Ian Robertson在the Winner Effect中提到,当存在外在奖励的时候,大脑的纹状体没有激活,这个和人的动机相关,或说人此时的行为不是出于成就动机;但是当给人去掉奖励,比如称之为智力测试,会激发人们的成就动机。可以说明,大脑在确实针对不同的情景有不同的工作方式。
Kohn提到奖励的多种坏的效果,比如奖励会造成兴趣的降低,不冒险,缺乏创造力,破坏人际关系等等。为什么会这样?我觉得这是一种智能的合理反应。比如说,当我们完成一项奖励来自别人的工作,我们肯定要按照对方的要求做事,否则我们就不能得到奖励了。这就造成,我们会一直提醒或监督自己,要做得符合要求,这就可能导致我们注意力带宽变窄,导致我们不能冒失败的风险,导致我们不能乱干、随意发挥,而是专心、赶紧完成。至于破坏人际关系,那是因为在利益面前,大家都没有办法淡定了,本性流露了出来。就像大家平时喜欢说,很多朋友平时挺好,友谊、友情高尚,但是一出事,朋友就没了,友情、义气不讲了。一个道理。
那么企业呢?Kohn也说,奖励不好,奖励会降低人们工作的积极行,降低创造力。所以他提议,不应该通过强迫、压制、贿赂或计谋来让人们努力工作,不应该监控、业绩评估、公开竞争,而是应该他们感到责任、意义、自主权、新奇、挑战性、自豪,来努力工作、生产更多产品。就像是说,对比通过威胁、甚至殴打一头奶牛来让她产更多奶,和让她听音乐,来产更多奶。这说法在我看来简直是无耻。
最终指向,应该是如何让个体过得更好、更幸福。如果你是让孩子学得更好,让工人生产更多产品,那么难道你不依然是在利用、操纵他们?不是依然不把他们当人对待?最终的途径,实际上就是从以利益为目标,改为以道德为目标。