用大数据对抗“粉色浆糊”
我对定量分析的方法向来持有戒心,认为数字可以被人“按摩”,抚平成为别人所需要的模样。可是有一天,家里小孩的一个新说法,让我的成见有所松动。我想带他们去快餐店吃饭,过去他们很喜欢,但不知学校营养课做了什么宣传,他们这次不愿去了,说有些快餐店用的牛肉饼,可能是“粉色浆糊”(pink goo)。 所谓粉色浆糊,是指将牛肉,牛杂碎甚至其他一些不卫生的东西一起搅了。你以为你吃的是牛肉,谁知道里面是什么东西?人的观念何尝不是这样?好多被我们接受的结论,你可能以为是事实,但里头掺杂了多少私利,偏见,还有舆论影响?天知道。
解决思维的“粉色浆糊”,应多倚重数据。《大数据》作者涂子沛先生最近又出了一本新著《数据之巅》(中信出版社,2014版)。他的上一本书,在国内产生的社会影响近年少有。上至国务院副总理汪洋,下至一些地方小企业的老板,阅读《大数据》、谈论大数据,已蔚然成风。在他著作的推动下,佛山南海区甚至设立了大数据局,我相信类似机构也会陆续在其他地方设立。这是好事,也是海外学人给中国带来的一种改革新风。但愿行政各级对大数据的重视不是雨过地皮湿的形式主义,而是能产生些实质影响。中国行政中“拍脑袋决策”一向为人诟病。科学决策这几个字写起来易,做起来难。没有人,哪怕是腐败官员,愿意去担“拍脑袋决策”的恶名,一个重要原因就是过去缺乏方法,包括如何采集数据,如何使用数据。
《数据之巅》这本新书比《大数据》脉络更为清晰。纵线为美国历史,包括美国第一个百年的三个时代:初数时代、内战时代、镀金时代,以及20世纪后数据成熟期的量化时代、抽样时代、开放时代、大数据时代。除了写大数据的成长,让人认识大数据之外,也让人从一个新鲜视角,认识美国政体的设立、演变、成熟的过程,如科学决策方法的出现、机构的设置等等。比如,在“初数时代”,书中写道了参众两院的结构设置,人口统计中黑人计数方法等。以数据写史,使得书比“民主的细节”还细节。美国人有时候会说,“大象也要一口一口吃”。大的概念,有时候无从入手。对于比较成熟的美国社会制度,国人羡慕的很多,但是如何借鉴,则有无从下手的苦恼。数据是一个非常好的切入口。数据也是一个中立的工具,能在改进中国社会的同时,避开意识形态的顾忌和干扰。作者用数据梳理了美国的历史,他让我们看到,美国走过的路,有一些我们正在走,或者将要走。比如美国的“镀金时代”,工业化提速,城市化加快,和中国现实不无类似,此间统计与数据所促成的革新,对我们就有直接的指导意义。
作者不仅仅是审视了美国的发展,还布了一条横线,由外而内,增加了对于中国大数据发展的关注。这种关联有问题上的类比,比如福特公司的人命换算,对中国交通事故管理的一些启发。也有一些关联,产生的是一种急迫的呼吁。书中最为精彩的一部分,说的是美国人戴明,如何使用基于统计数据的质量管理思维,影响了日本的工业制造,使得日本产品给人的印象,从劣质产品快速转化为质量一流的产品。作者呼吁中国也引入这种统计思维和数据文化,改进“中国制造”的质量,继而提升在国际竞争中的地位。
能不能形成这种数据文化,有官方的推动自然是好事。而在民间,数据革命也在悄然开展。计算机、手机、可穿戴技术的日渐普及,使得普通人也开始自觉不自觉地接触、产生数据。大数据的土壤正在形成。虽然有隐私问题需要持续关注,数据的采集越广泛,也就越可靠,越有用。精明的商家早已明白这个道理,在数据发掘上已抢先一步,如书中介绍的神州数码和中信银行。涂先生也认为,在教育等很多其他领域,数据也有巨大的潜力。比如在教育领域,人们也越来越重视实证研究中数据所支持或者否定的结论。现在一个很流行的说法,是“基于证据”(evidence-based)。 教育者说基于证据的学习策略(evidence-based learning),医生们说基于证据的医治(evidence-based medicine). 这种“证据”来自哪里?最主要的渠道就是数据,作者给我们交代了信息、数据、知识层层递进的证据。大数据也可以变做“小数据”,亦即人们实际生活中可用的数据,我们跑步时所戴的跑步手环,可帮我们采集锻炼的数据,我们还可下载相关手机程序,控制自己的饮食。我们正在成为“量化的自我”(quantified self).
量化和数字化,也未必就是枯燥乏味的“必要邪恶”(necessary evil)。涂先生把数据大数据写得风姿绰约。大数据确实可以很迷人。为了了解莎士比亚的词汇使用,我找到了一篇文章,其作者统计了莎士比亚不同风格作品的词汇使用状况,结果发现,莎翁在悲剧中使用的词汇多于喜剧。我问我一个专门研究莎士比亚的朋友这是怎么回事?她说悲剧通常需要更为深入地再现人类深层的苦难和处境,需调用的概念更多一些。数据有时候会暗渡陈仓地把我们带到洞见面前。
这几年涂先生繁忙地奔波于大洋两岸,成了“大数据”文化的布道人。同样写“大数据”的图书,目前市面上还有其他一些,如迈尔·舍恩伯格所著同名图书。不过涂在中美的政府机构都做过事,无疑更接中国的地气。也正因为中美两个国家的情况都了解,他就能在《数据之巅》中如数家珍地说到中国现当代数据的使用,比如陈正详在数据可视化方面所做的努力。舍恩伯格也不大可能会发现唐代2625个诗人的籍贯分布,宋代2377个诗人的籍贯分布等有趣数据 —— 这样的数据,启发人们从新的角度去思考文化的变迁,给文化研究提供新思维新方法。又如,涂先生还从美国南北战争期间谢尔曼将军依据数据发现最佳行军路线,说到林彪利用大数据打胜战的奥秘。此书观点权威,资料翔实,描述生动,连我一个外行人都能看得津津有味。
我们都已经被大数据重重包围,《数据之巅》这样“干货”极多的书,我们必须阅读,多些了解,可以在我们各自的工作和生活中,多些数据的意识和方法,少些“粉色浆糊”。
有关键情节透露