《干净的数据:数据清洗入门与实践》试读:1.1 新视角

大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发人员,再到图形设计师,一下子所有人都对数据科学产生了兴趣。便宜的硬件、可靠的处理工具和可视化工具,以及海量的免费数据,这些资源的汇集使得我们能够比以往任何一个时期更加精准地、轻松地发现趋势、预测未来。 不过,你可能还未听说过的是,数据科学的这些希望与梦想都建立在乱七八糟的数据之上。在正式应用于我们认为是数据科学的核心的算法和可视化之前,这些数据往往需要经过迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。 本章内容将涵盖以下几个方面:  关于数据科学的六个简单处理步骤,包含数据清洗   与数据清洗有关的参考建议   对数据清洗有帮助的工具   一个关于如何将数据清洗融入整个数据科学过程的入门示例  1.1 新视角 最近我们读报时发现《纽约时报》将数据清洗称为看门人工作,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。从下图中我们可以看出,尽管数据清洗是很重要的工作,但它并没有像大数据、数据挖掘或是机器学习那样真正地引起公众的注意。

不会真的有人因为没有见过人们聚众讨论看门人的工作多么有趣、多么酷而开始评头论足吧?说起来还真是惭愧,这工作没比做家务强到哪里去,但话又说回来,与其对它弃之不理、抱怨不断、恶语相加,还不如先把活儿干完,这能让我们过得更好些。 还不相信是吗?那让我们打个比方,你不是数据看门人,而是数据大厨。现在有人交给你一个购物篮,里面装满了你从未见过的各种各样的漂亮蔬菜,每一样都产自有机农场,并在最新鲜的时候经过人工精挑细选出来。多汁的西红柿,生脆的莴苣,油亮的胡椒。你一定激动地想马上开启烹饪之旅,可再看看周围,厨房里肮脏不堪,锅碗瓢盆上尽是油污,还沾着大块叫不出名的东西。至于厨具,只有一把锈迹斑斑的切刀和一块湿抹布。水槽也是破破烂烂的。而恰恰就在此时,你发现从看似鲜美的莴苣下面爬出了一只甲虫。 即使是实习厨师也不可能在这样的地方烹饪。往轻了说,无外乎是暴殄天物,浪费了一篮子精美的食材。如果严重点儿讲,这会使人致病。再说了,在这种地方烹饪根本毫无乐趣可言,也许全天的时间都得浪费在用生锈的破刀切菜上面。 与厨房的道理一样,事先花费些时间清洗和准备好数据科学工作区、工具和原始数据,都是值得的。“错进,错出。”这句源于上20世纪60年代的计算机编程箴言,对如今的数据科学来说亦为真理。

>干净的数据:数据清洗入门与实践

干净的数据:数据清洗入门与实践
作者: [美] Megan Squire
isbn: 7115420475
书名: 干净的数据:数据清洗入门与实践
页数: 200
译者: 任政委
定价: 49.00元
出版社: 人民邮电出版社
装帧: 平装
出版年: 2016-5