Chapter 1 Introduction
Overview
Data Science Is OSEMN
Intermezzo Chapters
What Is the Command Line?
Why Data Science at the Command Line?
A Real-World Use Case
Further Reading
Chapter 2 Getting Started
Overview
Setting Up Your Data Science Toolbox
Essential Concepts and Tools
Further Reading
Chapter 3 Obtaining Data
Overview
Copying Local Files to the Data Science Toolbox
Decompressing Files
Converting Microsoft Excel Spreadsheets
Querying Relational Databases
Downloading from the Internet
Calling Web APIs
Further Reading
Chapter 4 Creating Reusable Command-Line Tools
Overview
Converting One-Liners into Shell Scripts
Creating Command-Line Tools with Python and R
Further Reading
Chapter 5 Scrubbing Data
Overview
Common Scrub Operations for Plain Text
Working with CSV
Working with HTML/XML and JSON
Common Scrub Operations for CSV
Further Reading
Chapter 6 Managing Your Data Workflow
Overview
Introducing Drake
Installing Drake
Obtain Top Ebooks from Project Gutenberg
Every Workflow Starts with a Single Step
Well, That Depends
Rebuilding Specific Targets
Discussion
Further Reading
Chapter 7 Exploring Data
Overview
Inspecting Data and Its Properties
Computing Descriptive Statistics
Creating Visualizations
Further Reading
Chapter 8 Parallel Pipelines
Overview
Serial Processing
Parallel Processing
Distributed Processing
Discussion
Further Reading
Chapter 9 Modeling Data
Overview
More Wine, Please!
Dimensionality Reduction with Tapkee
Clustering with Weka
Regression with SciKit-Learn Laboratory
Classification with BigML
Further Reading
Chapter 10 Conclusion
Let’s Recap
Three Pieces of Advice
Where to Go from Here?
Getting in Touch
· · · · · · (
收起)
0 有用 wavefancy 2019-11-05 00:47:39
非常好的一本书,特别推荐。和我十几年的数据分析经验非常吻合。不是所有的工具都适合每个人,但是思想非常契合。因为每个人的分析数据差异非常大,完全可以自己定制自己的工具集。经验和思想的力量。
0 有用 NewStruct 2021-10-05 18:01:16
令人耳目一新的命令行工具箱。
0 有用 Nova 2014-12-06 03:24:49
刚开始读,介绍的全是近年来新开发的工具。手边没电脑,读起来很陌生啊 :(
1 有用 云水之遥 2019-01-03 18:22:32
在电脑上细看了前4章,后续是浏览。1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的数据操作。4 高级操作要借助别的语言,可视化是用的R,建模是用的Tapkee 5.了解了一些常用的linux命令,这个其实是主要目的,后续可以在实践中遇到了之后再... 在电脑上细看了前4章,后续是浏览。1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的数据操作。4 高级操作要借助别的语言,可视化是用的R,建模是用的Tapkee 5.了解了一些常用的linux命令,这个其实是主要目的,后续可以在实践中遇到了之后再多了解 6. 还是老老实实把python学扎实最实用 (展开)
0 有用 大嘴巴灵机一动 2015-11-02 19:59:46
讲那么多csv、json,我用不上啊……
0 有用 NewStruct 2021-10-05 18:01:16
令人耳目一新的命令行工具箱。
0 有用 wavefancy 2019-11-05 00:47:39
非常好的一本书,特别推荐。和我十几年的数据分析经验非常吻合。不是所有的工具都适合每个人,但是思想非常契合。因为每个人的分析数据差异非常大,完全可以自己定制自己的工具集。经验和思想的力量。
1 有用 云水之遥 2019-01-03 18:22:32
在电脑上细看了前4章,后续是浏览。1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的数据操作。4 高级操作要借助别的语言,可视化是用的R,建模是用的Tapkee 5.了解了一些常用的linux命令,这个其实是主要目的,后续可以在实践中遇到了之后再... 在电脑上细看了前4章,后续是浏览。1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的数据操作。4 高级操作要借助别的语言,可视化是用的R,建模是用的Tapkee 5.了解了一些常用的linux命令,这个其实是主要目的,后续可以在实践中遇到了之后再多了解 6. 还是老老实实把python学扎实最实用 (展开)
1 有用 ¥ifan 2018-04-28 22:26:09
kind of outdated
0 有用 yufree 2018-02-19 20:28:21
命令行虽好,但没必要一定都要用,但理解后帮助很大