《Python数据挖掘入门与实践》试读：1.1　数据挖掘简介

我们今天的数据采集规模在人类历史上是空前的，日常生活也越来越依赖我们所采集的这些信息。我们希望计算机能把网页翻译成其他语言，预报天气，推荐我们喜欢的书，诊断我们的健康问题。类似的需求还会继续增长，我们会需要更多的应用和更高的精确性。数据挖掘技术可以用来训练计算机，使其根据已有数据做出决策。如今，数据挖掘技术已成为支撑很多高科技系统的骨干。 Python的迅速普及并非偶然。它的灵活度高；模块众多，可以执行很多任务；比起其他任何编程语言，Python代码通常更为简洁，可读性更强。Python在数据挖掘领域已经形成了一个由研究员、从业者和新手组成的氛围活跃的大社区。本章将介绍如何使用Python进行数据挖掘，主要会涉及以下几个主题。  数据挖掘简介及其应用场景   搭建Python数据挖掘环境   亲和性分析示例：根据购买习惯推荐商品   （经典）分类问题示例：根据测量结果推测植物的种类  1.1　数据挖掘简介数据挖掘旨在让计算机根据已有数据做出决策。决策可以是预测明天的天气、拦截垃圾邮件、检测网站的语言，或者在约会网站上发现新的恋爱对象。数据挖掘方面的应用已经有很多，新的应用也在源源不断地出现。数据挖掘涉及算法、统计学、工程学、最优化理论和计算机科学相关领域的知识。除此之外，我们还会用到语言学、神经科学、城市规划等其他领域的概念或知识。要想充分发挥数据挖掘的威力，通常需要在算法中整合这些属于特定领域的知识。虽然数据挖掘相关应用的实现细节可能千差万别，但是从较高的层次看，它们往往大同小异。数据挖掘的第一步一般是创建数据集，数据集能够描述真实世界的某一方面。数据集主要包括以下两个部分。  表示真实世界中物体的样本。样本可以是一本书，一张照片，一个动物，一个人或是其他任何物体。   描述数据集中样本的特征。特征可以是长度、单词频率、腿的数量、创建时间等。  接下来是调整算法。每种数据挖掘算法都有参数，它们或者是算法自身包含的，或者是使用者添加的。这些参数会影响算法的具体决策。举个简单的例子，我们希望计算机能够把人按照个子高矮分成两大类。我们首先采集数据，得到包含每个人身高的一组数据，以及对他们高矮的判断。人身　　高高还是矮 1 155cm 矮 2 165cm 矮 3 175cm 高 4 185cm 高接下来要做的就是调整我们的算法。作为一个简单的算法，如果身高高于x，我们就认为这个人是高个子，否则，他就属于矮个子。我们的算法要过一遍数据，确定x的最佳值。对于上面的数据集，x比较合理的值为170cm。任何高于170cm的人就被归到高个子一类中，其余则为矮个子。在上面这个数据集中，特征显而易见为身高。因为我们想知道人们的高矮，所以采集了他们的身高数据。抽取特征是数据挖掘过程的一个重要环节。本书后面的章节中会介绍从数据集中抽取区分度高的特征的方法。特征抽取往往需要对相关领域有着深入的理解，或至少需要多次试错。本书中使用Python语言介绍数据挖掘。出于讲解的需要，为了保证代码、流程的清晰易懂，我们有时候跳过了能够提升算法速度、效果的细节，没有采用最优方案。

回试读目录 1.2　使用Python和IPython Notebook

>Python数据挖掘入门与实践

作者: [澳] Robert Layton
原作名: Learning Data Mining with Python
isbn: 7115427100
书名: Python数据挖掘入门与实践
页数: 252
译者: 杜春晓
定价: 59.00元
出版社: 人民邮电出版社
装帧: 平装
出版年: 2016-7

《Python数据挖掘入门与实践》试读：1.1 数据挖掘简介

《Python数据挖掘入门与实践》试读：1.1　数据挖掘简介