中国的幽灵工作
什么是幽灵工作?
《销声匿迹》的英文标题是“Ghost Work”,直译为“幽灵工作”。幽灵工作本质上是一种临时工作,但它潜藏在互联网(匿名性)和自动化(原子性)的阴影之下,大多数人无法察觉,故而得名。幽灵工作可以追溯到本世纪初的亚马逊公司。
亚马逊创立之初,为了扩建网上书店,从出版商那儿获取了大量书籍信息,但这些信息有错误。这些错误无法用机器自动修改,雇佣全职员工又太麻烦,所以他们从美国和印度雇佣临时工。随着亚马逊的规模越来越大,需要清理的数据也越来越多,一个全新的网站MTurk应运而生。
MTurk是一个在线劳工市场:请求者(requester)发布在线任务,并列出每项任务的薪资;工人(worker)通过完成任务获得报酬,并定期收款;MTurk平台则向请求者收取一定比例的佣金。这种线上工作通常很简单,比如判断一个句子是否语法正确,或者判断一张图片是否少儿不宜。
最开始只有亚马逊及其合作商可以在MTurk上发布任务,后来所有人都可以注册成为请求者。MTurk上的任务也越来越多样。一个有趣的实例是华裔科学家、斯坦福大学计算机科学教授李飞飞完成的。李飞飞想要实现“理解图片”,即计算机自动识别图片中的主要物体。这项任务的前提是搜集一个庞大的训练数据集,然后交给计算机“深度学习”,并不断优化算法,直到计算机能够快速、准确地识别其他图片中的物体。2007年,李飞飞和她的同时在MTurk上招募了来自167个国家的约4.5万名工人,花了两年半时间准确地为320万张图片贴标签——如果只靠雇佣临时工,这些工作大约需要19年。今天的图像识别就是建立在李飞飞的数据集之上,而这些不知名的幽灵工人就是这场革命的幕后英雄。
今天的许多互联网公司——谷歌、推特、脸书、优步等——都在应用幽灵工作,而使用者却浑然不觉,以为自动化已经发展到“即时响应”的程度,而推动自动化的人类(工人)却被藏在暗处。(举个例子,你在豆瓣上发表一篇日志,系统审核了半个小时然后通过,你以为是系统在审核,但其实是人在审核。这就是幽灵工作。)
《销声匿迹》这本书没有定义“什么是幽灵工作”,我尝试给出一个定义:在机器背后使系统更顺滑的工作。幽灵工作有两个最重要的特征:1)工人可以被藏在系统之下,用户完全不知道他/她的存在;2)个人价值被擦除。在本文中,我将从这两个特征出发,介绍我观察到的中国的幽灵工作。
幽灵工作在中国的应用
1. 创新奇智;睿金科技
《销声匿迹》的原著出版于2019年,但实际上,早在2018年,《纽约时报》就有一篇文章介绍了中国的幽灵工作,标题是“廉价劳动力如何推动中国的人工智能雄心”(How Cheap Labor Drives China’s A.I. Ambitions),文中提到了两家公司——创新奇智和睿金科技,这两个例子完美地诠释了幽灵工作在中国的应用。
创新奇智的一个应用是自动收银系统。比如说在一家面包连锁店,顾客可以把糕点放在扫描仪之下,系统会自动识别这是什么商品,并自动计算出顾客需要付多少钱。整个过程不需要店员参与,只需要系统能够快速准确地识别。要达到这个效果,前提就是为所有商品创建数据集。从李飞飞的例子中可以知道,这项任务并不困难,只需要前期付出大量的琐碎劳动。可以想象,凡是涉及自动化的项目,都需要这样的数据集。比如说,如果你想做自动驾驶,就需要收集交通信号灯、道路标志和行人的数据集。
不过,与《销声匿迹》中提到的幽灵工作稍有不同:这两家公司并不会在线上招募零工,而是省心地把创建数据集的工作外包给一些数据工厂。这种数据工厂正在像雨后春笋一般涌现,大多位于人力成本较低的城市,比如河南、河北。但幽灵工作的两项特征仍然适用:工人可以被藏在系统之下,个人价值被擦除。
文章中还提到,这些数据工厂经常做的事情,就是给海量的图片和监控录像添加标签。一个叫侯梦夏的人曾经为“旷视科技”做过面部标记,这家公司的核心业务是人脸识别、门禁和考勤机。文中提到了一个令人毛骨悚然的事实:一些面部识别系统可以比识别她的朋友更快地识别她,因为“她的脸在原始数据库里。”——如果想提高面部识别的效率,一种方法是加强人工智能技术,另一种方法是在原始数据库中纳入更多的人脸。从李飞飞的例子中我们知道,区别图片中的猫、狗、花、草需要三百多万张图片作为原始数据集,那么识别一个具体的人脸需要多少数据呢?这些图片又来自哪里?
2.互粉之家(以下简称“平台A”)
随着自媒体的崛起,流量成了一种可衡量的赚钱方式。既然真流量可以挣钱,假流量当然也可以挣钱。平台A是一个主要为微信公众号提供流量的“幽灵工作平台”,在该平台上,你可以充值现金,兑换成平台上的货币(假设叫“互粉币”);也可以在平台上做任务挣互粉币,积攒到一定的金额就可以兑换成现金。每一个注册者既可以是请求者,也可以是工人。
如果你的微信公众号需要引流,那么你就是请求者,你可以在平台上创建任务。比方说,你可以花3000个互粉币创建100个“粉丝任务”,每个做任务的人需要关注你至少7天,每个“工人”可以获得30个互粉币。你也可以花3000个互粉币创建3000个“阅读任务”,并提交一篇微信图文的连接;每个做任务的人需要(在手机上)点击这条链接,并且可以获得1个互粉币。这种方法可以使图文的阅读数据不那么难看,或者应付领导设定的kpi。
即使没有需要引流的公众号,你也可以偶尔登陆这个平台,偶尔完成几个任务。如果平台足够大、任务足够多,也许你能靠它挣几个钱。
这种模式跟真正的幽灵工作非常像,只不过任务很单一,几乎挣不了几个钱,所以不可能当成主业。与幽灵工作不同的是,使用平台A的人很少,也都知道这不过是相互欺骗的把戏,所以只要你不太笨,一般不会忽略平台背后的人——只是你不在意他/她是谁。
3.作业帮(平台B)
前两年流行的付费问答(比如微博问答、悟空问答)也有幽灵工作的雏形:提问者是请求者(并付钱),回答者是工人。但在这种模式中,回答者一般是名人或学者,比如王思聪或李银河,他们的价值不可能被擦除。我最近注意到另外一种问答形式,与幽灵工作非常接近。
作业帮上有一种会员制度。学生可以付费成为会员,然后可以在平台上提问(请求者)。老师则可以在平台上回答问题,并按工作量收取相应的报酬(工人)。但成为作业帮上的老师需要一定的“资格”:首先必须是相关专业的老师或者拥有教师资格证,或者是全日制在校大学生;其次必须通过相应的测试。
作业帮上的问题一般不难,许多只需要通过简单地搜索就可以找到答案,因此并不需要工人贡献太多的价值。学生不知道答题的老师是谁,老师也不知道提问的学生是谁。双方都是被藏在系统之下,双方也都不关心对方的人格属性。
除了上述三类,我们的生活里还有很多广义的幽灵工作。《销声匿迹》这本书并没有给出明确的定义,但书中涉及的面很广。外卖小哥、快递员、网约车司机是不是幽灵经济的参与者呢?豆瓣小组里有许多工作是千字10元写一篇文案,似乎对“工人”没有什么要求(也没有署名),这种的工作是不是一种幽灵工作呢?网上的一篇文章被人举报了,然后又被人删帖了,举报者是不是在做无偿的幽灵工作?删帖者呢?
《销声匿迹》的副标题是“数字化工作的真正未来”。幽灵工作中的工人处在自动化的环路之中,而我们又何尝不是处在数字化的环路之中。我们永远不可能远离数字化,因此了解它的未来就成了一种不可抗拒的选择。
《纽约时报》的文章链接:https://cn.nytimes.com/technology/20181126/china-artificial-intelligence-labeling