《Python数据挖掘入门与实践（第2版）》试读：1.1 什么是数据挖掘

我们正在以人类历史上前所未有的规模收集现实世界的数据。伴随着这种趋势，日常生活对于这些信息的依赖也与日俱增。我们现在期待计算机能够完成各种工作——翻译网页、精准地预报天气、推荐我们可能感兴趣的书、诊断健康问题。这种期待在未来会对应用的广度和效率有更高的要求。数据挖掘是一套用数据来训练计算机做出决策的方法论。它已经成为支撑当今许多高科技系统的骨干技术。 Python 在当下大为流行不无原因。它既给予开发人员相当大的灵活性，还包含执行各种任务的众多模块，并且 Python 代码比用其他语言编写的代码更为简洁可读。Python 在数据挖掘领域也形成了规模庞大、气氛活跃的社区，容纳了初学者、从业者、学术研究人员等各种身份的人士。本章会介绍如何用 Python 进行数据挖掘工作，其中包含以下几个话题。  什么是数据挖掘？数据挖掘的适用场景有哪些？  搭建用于数据挖掘的Python 环境。  亲和性分析示例：根据消费习惯推荐商品。  分类问题示例：根据尺寸推断植物种类。 1.1 什么是数据挖掘数据挖掘提供了一种让计算机基于数据做出决策的方法。所谓的决策可以是预测明天的天气、拦截垃圾邮件、识别网站的语种和在交友网站上找到心仪人选。数据挖掘的应用场景有很多，而且人们还在不断地发掘扩充。数据挖掘涉及众多领域，包括算法设计、统计学、工程学、最优化理论和计算机科学。尽管数据挖掘结合了这些领域的基础技能，但我们在特定领域中应用数据挖掘时，仍需要结合相应的领域知识（即专业知识）。领域知识会在数据挖掘中起到画龙点睛的作用。要想提升数据挖掘的效益，免不了要把领域知识与算法相结合。虽然数据挖掘的应用实现细节通常差异很大，但从同样的高度来看，它们都是用一部分数据训练模型，然后再把模型应用到其他数据中。数据挖掘的应用包含创建数据集和算法调参两部分工作，步骤如下。 (1) 首先创建数据集，用来描述现实世界中的某一方面。数据集由两个方面组成。  样本，现实世界中的对象，比如一本书、一张相片、一只动物、一个人。在其他命名规范中，样本也可能被称为观测（observation）、记录或行。  特征，数据集中样本的描述或测量值。特征可以是长度、词频、动物身上腿的数量、样本的创建日期等。在其他命名规范中，特征也可能被称为变量、列、属性或共变（covariant）。 (2) 接下来是算法调参。每个数据挖掘算法都有参数，要么是算法自带的，要么是用户提供的。调整参数即影响算法基于数据做出决策的过程。举个简单的例子，假设我们希望计算机可以把人按身高分成两类：高与矮。一开始要采集数据集，这个数据集应包含不同人的身高以及判定高矮的条件，如表1-1 所示。

接下来则是算法调参。此处使用一种简单的算法：如果身高大于 x，则判定此人高；否则判定此人矮。该训练算法会依数据为 x 取一个合适的值。对于表中的数据而言，合理阈值应是170 cm。算法会把身高 170 cm以上的人判定为高，而把身高低于此值的人判定为矮。这样，我们的算法就可以为新数据分类。假如有一个身高为 167 cm 的人，尽管之前在数据集中并没有见到这样的人，但算法依然可以对其分类。表 1-1 中数据的特征显然是身高。要确定人的高矮，就要采集身高数据。特征工程（feature engineering）是数据挖掘中的一个关键问题。在后面的章节里，我们会讨论如何选择适宜采集到数据集中的特征。这个步骤往往最终需要引入领域知识，或者至少要经过反复尝试才能取得成效。本书用 Python 来介绍数据挖掘。为便于理解，本书有时更加关注代码和工作流程是否清晰易懂，而不是所采用的方法效率是否最优。因此，我们有时会跳过提高算法速度或效率的细节。

前言回试读目录 1.2 使用Python 和 Jupyter Notebook

>Python数据挖掘入门与实践（第2版）

作者: [澳]罗伯特•莱顿
isbn: 7115528020
书名: Python数据挖掘入门与实践（第2版）
页数: 268
译者: 亦念
定价: 79.00元
出版社: 人民邮电出版社
出版年: 2020-2
装帧: 平装