无知的惩罚

Item: 奖励的惩罚
Rating: 3
Author: J.T.

J.T. 评论奖励的惩罚 3

2019-11-28 16:29:44

奖励并不惩罚，无知才惩罚。——马克·土温。

一

Alfie Kohn主要是针对pop behaviorism提出批评。这种观点认为，通过正强化和负强化就能搞定一切，或，换句话说，我们唯一只能用正或负强化来搞定别人。

Khon提到Skinner的一些观点，认为人是环境和基因的产物。这句话显然没错。人可不是基因和环境的产物，还能从哪儿来？Skinner又说，不存在一个人，只存在一个行动的集合。实际上，这个观点也没有错。我们把一个人拆开来看，可不是一堆事件的集合吗？从一个精子和一个卵子没有相遇的时候开始，一直到一个人的死亡，都是事件。当然，这么说的话，整个宇宙都是事件集。Carlo Rovelli在The Order of Time中说，连时间都不存在。不存在事件以外的其他存在。但是，Skinner接着说，不存在自我，不存在人。这个就有点值得商榷。因为，在某种意义上，这个说法是对的，但是并不是全对。Kohn反驳说，这就是否定了人的本质。Khon就是错的，他犯了essentialism的错误。人有什么本质？他说，我们通常用来定义人的本质的那些东西。什么东西？我们就不得不谈意识，动物没有；谈理性，动物没有。那么问题就来了，动物和植物是不是有不同的本质？家里养的鱼和狗是不是有不同的本质？这就一路走到了本质主义的错误。道金斯说，这就是从兔子身上看到一种本质：“兔”，Dennett说这是从金子身上看到本质“金”。这是我们人类创造出一种概念，然后又被这种概念引入歧途的例子。Skinner还说，一切事件都是偶然的产物。就像雪崩的时候，一片雪花最终会停留在什么地方。这个看法，和EO Wilson的错误一样。

Skinner，和其他一些行为主义者，因此就有一种极端化的倾向，认为一切都是刺激-反应。而通过重复性提供一种刺激，就能引发一种重复的行为。这当然是个真理。就像给狗喂食物，每当铃声或灯光亮起的时候，狗的口水就流下来了。废话，这狗又不是智障。当然，让行为主义者得意的部分是：铃声和灯光不是食物，而且你流口水，我也可以不给你食物，你还是智障。这种看法是一种虚假的得意。不妨以Alfie Kohn自己的反抗来说明：他说，他写了一篇文章，说老鼠通过拉杠杆强化一个实验人员的投喂行为。就像是说，如果你们家孩子做作业就得5块钱。有一天你没给，下次他就不做了。然后你不得不给，你答应给他才又做。他就是在强化你的奖励行为。

这就是Kohn所说的“punished by rewards”的意思。奖励最终带来了坏后果。但是他的这个观点也不完全对。pop behaviorism的错误在于，以为通过一种强化的手段，主要是奖励，来引发人们的一种行为上的变化。确实，奖励带来了行为上的变化。但是，他们实际上是想要一种长期、永久的变化。现在，Kohn所批评的就是这个，他说，奖励没有带来想要的变化，反而带来了不想要的变化。这就是他说的奖励的惩罚。

二

奖励和惩罚，Khon称之为extrinsic motivators。我称之为外部的环境信息或线索。也就是说，是外在环境中的一个好的诱饵，或一种坏的威胁。好的诱饵，自然会引发人们的某种行为。坏的威胁反之。那么，从这个意义上说，奖励和惩罚自然会引发人们行为上的改变。除非是智障。前面别人挖了个坑，你还非往里跳。人本能趋利避害。有奖励自然就上，有惩罚自然就避。

问题是，为什么行为主义真以为能长期改变个体行为？是因为真的不是单次出现这种行为。比如狗，经常响铃或亮灯，狗看见响铃和亮灯就流口水。本来狗没有这样。很矜持。现在它变了。但是这难道不是应该的吗？狗又不傻。就像我们，看到一只豹子的头，从草丛中伸出来。如果有一个人觉得，只是一个头，应该没有危险。那他活该被吃。聪明的都知道，头下面，肯定还跟着身体和四肢，当然还应该有一条尾巴。这狗也是一样。这是智能的一种工作方式。我们的智能，不是进行全部计算，而是进行部分计算。其他的部分呢？其他的部分是自动计算。自动计算，就得有一套工具。如果全部重新计算，理想上，就不会出现错误。但是如果纳入自动计算，就会出现错误。因为，自动计算无法事无巨细全部考虑，而只计算部分线索。毕竟，如果有人骗你，就放出一个木棍上面顶一个豹子头。或者，是林冲站在草丛里。你会怎么想？这就导致一些错误的出现，甚至非常奇怪的错误。就像我们人类的一些认知偏差。这就是我们智能的工作方式。

就像是说，如果你有个孩子，你每次周六他做完作业都给他金钱奖励。那么，这个周六，他昨晚作业，也期待有同样的奖励。只不过，他的口水没有流出来；但是，他会找你要。这就是智能的工作方式。那么，造成了什么结果呢？就是我们会把一些环境或过程，变成一种自动化。就像我们弹吉他、打字，我们称之为“肌肉记忆”，其实是程序记忆，就是一种自动化过程。对于环境也是一样。正是因为这种自动化，给行为主义带来了一种“长期持久”改变的错觉。就像我们学会一样东西，需要很久才消去。这是因为我们的大脑就是这样工作的。不是说，今天用，今天有。明天不用，明天就抹去了。我们的神经没有这么灵活。这么灵活，那得多高的智能呀。我们的智能，都是慢慢磨出来的，就像坎德尔提到的记忆，我们背单词，反复冲击神经，最终神经终于通过蛋白质，在你脑中建造了一个凸起，这个凸起就是你这个单词，你终于记住了。反过来说，如果像我们这种弱智水平，如果听到什么都记住，那大脑就是一个巨大的垃圾场。

所以说，奖励或惩罚，仅仅用于当场阻止、引发一个行为。阻止次数多了，也会引发一种对应的行为上的改变，就像流口水的狗。但是，这是一种针对环境的反应。就像路口走红绿灯，我们看了绿灯行，不是我们自己想行；看了红灯停，不是我们自己想停。这是因为，你不停不走都有惩罚。那么，在沙漠里，你看到一个红绿灯，你就不会停或走。或者，平时你也一点都不想念红绿灯。这就是Kohn所提到的忧虑，他说，在学习、做人上，仅仅用奖励和惩罚引出一种行为不够，而是要塑造人的品质，内在的态度、价值观。

三

广义上来说，没有什么不具有操纵性。有些人我们见了，不自觉面带微笑，甚至还上去打招呼，甚至我们还对她们好，实际上都是在“操纵”，因为我们的这些做法，实际上都用于引发对方的特定行为，即跟我们好。但是，我们不会认为这是操纵。比如说，我们遇到和我们礼貌说话的人，我们就会感觉好；遇到不礼貌的人，感觉就会不好。这些，都是对方的行为引发的我们的反应。通常，我们不认为是操纵，因为我们实际上会审查对方的目的。推销人员、商场销售，都会对我们友好相待，笑脸相迎、说话好听，但是我们并不买账。我们去星巴克，星巴克的工作人员会打招呼：中午好。但是我看到很少有人回应。但是对同事、朋友或上司的招呼，人们一定积极回应。也就是说，实际上是目的或动机，决定了我们判断一种行为是否妥当，这些行为作为手段本身是中性的。

我们是否有一个内在的人的本质？不用谈本质。我们仅仅需要知道，我们有一种内在的智能结构就行了。当我们用外在环境线索来诱发一个人的行为的时候，仅仅是诱发这个人的行为。比如一个细长的东西，可能让人吓得一跳。这就是反应的触发。但是，如果我们是教育孩子，我们往往希望孩子持续做出某种行为。持续行为最好的动力，不是外在持续的引诱，而是个体内在有一个模块持续的推动。比如说读书，我们可以威胁、引诱孩子读书。但是，这是一个事倍功半的做法。假如能让孩子自己喜欢读书，我们就是威胁、引诱孩子不要读书，也很难奏效。

行为主义不知道为什么忽略了人的内在智能模块。可能是对弗洛伊德这些心理流派的一种强烈的反感导致的一种偏激。Ian Robertson在the Winner Effect中提到，当存在外在奖励的时候，大脑的纹状体没有激活，这个和人的动机相关，或说人此时的行为不是出于成就动机；但是当给人去掉奖励，比如称之为智力测试，会激发人们的成就动机。可以说明，大脑在确实针对不同的情景有不同的工作方式。

Kohn提到奖励的多种坏的效果，比如奖励会造成兴趣的降低，不冒险，缺乏创造力，破坏人际关系等等。为什么会这样？我觉得这是一种智能的合理反应。比如说，当我们完成一项奖励来自别人的工作，我们肯定要按照对方的要求做事，否则我们就不能得到奖励了。这就造成，我们会一直提醒或监督自己，要做得符合要求，这就可能导致我们注意力带宽变窄，导致我们不能冒失败的风险，导致我们不能乱干、随意发挥，而是专心、赶紧完成。至于破坏人际关系，那是因为在利益面前，大家都没有办法淡定了，本性流露了出来。就像大家平时喜欢说，很多朋友平时挺好，友谊、友情高尚，但是一出事，朋友就没了，友情、义气不讲了。一个道理。

那么企业呢？Kohn也说，奖励不好，奖励会降低人们工作的积极行，降低创造力。所以他提议，不应该通过强迫、压制、贿赂或计谋来让人们努力工作，不应该监控、业绩评估、公开竞争，而是应该他们感到责任、意义、自主权、新奇、挑战性、自豪，来努力工作、生产更多产品。就像是说，对比通过威胁、甚至殴打一头奶牛来让她产更多奶，和让她听音乐，来产更多奶。这说法在我看来简直是无耻。

最终指向，应该是如何让个体过得更好、更幸福。如果你是让孩子学得更好，让工人生产更多产品，那么难道你不依然是在利用、操纵他们？不是依然不把他们当人对待？最终的途径，实际上就是从以利益为目标，改为以道德为目标。

有关键情节透露