《数据之美》试读：前言

当我们第一次接触为《代码之美》编写“续集”的想法时，这次是关于数据也就是这本书，我们觉得这个想法令人兴奋且很有挑战性。现在收集、可视化和处理数据涉及每个专业领域和日常生活的诸多方面，一个大数据集在范围上将是难以想象的广泛。因此，我们联系了一组相当多样化的群体，这些人的工作让我们钦佩。当他们中的大多数都同意撰稿时，我们感到异常兴奋。这本书就是我们努力的结果，我们希望它能够展示数据处理工作可以多么的广泛（和美丽）。在本书中，你将了解从和政府协作到和火星登陆器一起工作的各个方面；你将了解如何使用统计程序、制作可视化应用、混合Radiohead视频；你将看到地图、DNA和一些我们真正只能称之为“数据哲学”的内容。本书的版权收益贡献给知识共享组织（Creative Commons）和阳光基金会（the Sunlight Foundation），它们致力于通过解放数据使世界变得更美好。我们希望你将会考虑你和数据亲身“邂逅”的经历如何塑造了世界。本书的组织方式本书的章节贯彻一条较为松散的曲线：从数据收集到数据存储、组织、检索、可视化及最后的数据分析。第1章：在数据中观察生活。作者Nathan Yau着眼于在新兴的个人数据收集领域的两个项目背后的动机和挑战。第2章：美丽的人们：设计数据收集方法时牢记用户。Jonathan Follett和Matthew Holm讨论了在Web上向人们收集数据时，信任、说服和测试的重要性。第3章：火星上的嵌入式图像数据处理。J. M. Hughes分析了设计在太空旅行下能够正常工作的数据处理系统所面临的挑战。第4章：PNUTShell中的云存储设计。Brian F. Cooper、Raghu Ramakrishnan和Utkarsh Srivastava描述了雅虎所设计的软件系统，该系统将其全球分布式数据中心转换为支持现代Web应用的通用存储平台。第5章：信息平台和数据科学家的兴起。Jeff Hammerbacher以Facebook的数据团队的历史演化作为特例，追溯了信息处理工具以及驱动这些工具的人们的演化。第6章：照片档案的地理之美。Jason Dykes和Jo Wood吸引人们注意一个志愿者组织收集的彩色可视化空间数据的普及性及其力量。第7章：数据发现数据。Jeff Jonas和Lisa Sokol阐述了思考数据的新方式，为了完全管理这些数据，很多人需要采用这种方式。第8章：实时的可移动数据。Jud Valeski深入分析了Web上实时的分布式社会和定位数据当前存在的局限，讨论了解决该问题的一个可能方案。第9章：探寻Deep Web。Alon Halevy和Jayant Madhavan描述了G公司开发的用于搜索当前“受困”于Web表单之后的数据的工具。第10章：构建Radiohead的“House of Cards”。Aaron Koblin和Valdean Klump讲述了一个涉及激光、编程和“骑在巴士背上”的惊险故事，故事以一个获奖音乐视频结束。第11章：都市数据可视化。Michal Migurski详细描述了释放和美化一些我们身边的最重要的数据的过程。第12章：Sense.us的设计。Jeffrey Heer重塑了作为社会空间的数据可视化，并使用这种新视角来探索历时150年的美国人口普查数据。第13章：数据所做不到的。Coco Krumme关注于证明人们在很多方面误解和误用数据的实验性工作。第14章：自然语言语料库数据。Peter Norvig通过从Web上获取的1兆规模的自然语言词汇语料数据，带领读者走进一些令人回味的实践。第15章：数据中的生命：DNA漫谈。Matt Wood和Ben Blackburne描述了数据之美，即DNA和创造、捕捉和处理数据需要的大量基础设施。第16章：美化真实世界中的数据。Jean-Claude Bradley、Rajarshi Guha、Andrew Lang、Pierre Lindenbaum、Cameron Neylon、Antony Williams和Egon Willighagen展示了“众包”（crowdsourcing）和高度透明的结合如何提高了药物发现的研究。第17章：数据浅析：探索形形色色的社会定型。Brendan O'Connor和Lukas Biewald展示了当让人们匿名对其他人的图片进行打分时所表现出来的关联和模式。第18章：旧金山海湾之殇：次贷危机的影响。Hadley Wickham、Deborah F. Swayne和David Poole通过使用开源软件和公共数据资源，带领读者走进对近年来旧金山海湾地区的住房危机的详尽研究。第19章：美丽的政治数据。Andrew Gelman、Jonathan P. Kastellec和Yair Ghitza展示了统计和数据可视化工具是如何帮助我们加深对社会进行组织的政治进程的理解。第20章：连接数据。Toby Segaran探索了对Web上可获取的大量的数据集进行连接的挑战性和可能性。本书使用的体例本书遵循以下字体体例：斜体（Italic）表示新的术语、URL、Email地址、文件名和文件扩展名。等宽字体（Constant width）用于程序清单以及段落中的程序单元如变量或函数名称、数据库、数据类型、环境变量、声明和关键字。等宽粗体字（Constant width bold）显示命令或者其他由用户输入的文本。等宽斜体字（Constant width italic）表示必须根据用户提供的值或者由上下文决定的值进行替代的文本。使用本书的样例代码本书是为了帮助你完成工作。通常来说，你可以在你的程序和文档中使用本书的代码。除非你使用了本书的大量代码，否则你无需联系我们获取许可。例如，写一个程序用到本书的几段代码不需要获得许可，销售和分发O’Reilly丛书的代码需要获得许可；引用本书的样例代码来解决一个问题不需要获得许可，使用本书的大量代码到你的产品文档中需要获得许可。我们不要求你（引用本书时）给出出处，但是如果你这么做，我们对此表示感谢。出处通常包含标题、作者、出版社和ISBN。例如：“Beautiful Data, edited by Toby Segaran and Jeff Hammerbacher. Copyright 2009 O,Reilly Media, Inc., 978-0-596-15711-1.”。如果你觉得你对本书样例代码的使用超出了这里给出的许可范围，请与我们联系：permissions@oreilly.com。联系方式如果您对本书有任何意见和问题，请联系出版社：美国： O,Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中国：北京市西城区西直门南大街2号成铭大厦C座807室（100035）奥莱利技术咨询（北京）有限公司 O’Reilly的每一本书都有专属网站，你可以在那找到关于本书的相关信息，包括勘误列表、示例代码以及其他的信息。本书的网站地址是： http://www.oreilly.com/catalog/9780596157111/ 对于本书的评论和技术性的问题，请发送电子邮件到： bookquestions@oreilly.com 关于本书的更多信息、会议、资料中心和网站，请访问以下网站： http://www.oreilly.com http://www.oreilly.com.cn

回试读目录导言

>数据之美

作者: Toby Segaran, Jeff Hammerbacher
副标题: 解密优雅数据解决方案背后的故事
isbn: 711131512X
书名: 数据之美
页数: 354
译者: 祝洪凯, 李妹芳, 段炼
定价: 75.00元
原作名: Beautiful Data: The Stories Behind Elegant Data Solutions
出版社: 机械工业出版社
出版年: 2010年10月
装帧: 平装
又名: Beautiful Data