《Python数据挖掘入门与实践(第2版)》试读:1.1 什么是数据挖掘

我们正在以人类历史上前所未有的规模收集现实世界的数据。伴随着这种趋势,日常生活对于这些信息的依赖也与日俱增。我们现在期待计算机能够完成各种工作——翻译网页、精准地预报天气、推荐我们可能感兴趣的书、诊断健康问题。这种期待在未来会对应用的广度和效率有更高的要求。数据挖掘是一套用数据来训练计算机做出决策的方法论。它已经成为支撑当今许多高科技系统的骨干技术。 Python 在当下大为流行不无原因。它既给予开发人员相当大的灵活性,还包含执行各种任务的众多模块,并且 Python 代码比用其他语言编写的代码更为简洁可读。Python 在数据挖掘领域也形成了规模庞大、气氛活跃的社区,容纳了初学者、从业者、学术研究人员等各种身份的人士。 本章会介绍如何用 Python 进行数据挖掘工作,其中包含以下几个话题。  什么是数据挖掘?数据挖掘的适用场景有哪些?  搭建用于数据挖掘的Python 环境。  亲和性分析示例:根据消费习惯推荐商品。  分类问题示例:根据尺寸推断植物种类。 1.1 什么是数据挖掘 数据挖掘提供了一种让计算机基于数据做出决策的方法。所谓的决策可以是预测明天的天气、拦截垃圾邮件、识别网站的语种和在交友网站上找到心仪人选。数据挖掘的应用场景有很多,而且人们还在不断地发掘扩充。 数据挖掘涉及众多领域,包括算法设计、统计学、工程学、最优化理论和计算机科学。尽管数据挖掘结合了这些领域的基础技能,但我们在特定领域中应用数据挖掘时,仍需要结合相应的领域知识(即专业知识)。领域知识会在数据挖掘中起到画龙点睛的作用。要想提升数据挖掘的效益,免不了要把领域知识与算法相结合。 虽然数据挖掘的应用实现细节通常差异很大,但从同样的高度来看,它们都是用一部分数据训练模型,然后再把模型应用到其他数据中。 数据挖掘的应用包含创建数据集和算法调参两部分工作,步骤如下。 (1) 首先创建数据集,用来描述现实世界中的某一方面。数据集由两个方面组成。  样本,现实世界中的对象,比如一本书、一张相片、一只动物、一个人。在其他命名规范中,样本也可能被称为观测(observation)、记录或行。  特征,数据集中样本的描述或测量值。特征可以是长度、词频、动物身上腿的数量、样本的创建日期等。在其他命名规范中,特征也可能被称为变量、列、属性或共变(covariant)。 (2) 接下来是算法调参。每个数据挖掘算法都有参数,要么是算法自带的,要么是用户提供的。调整参数即影响算法基于数据做出决策的过程。 举个简单的例子,假设我们希望计算机可以把人按身高分成两类:高与矮。一开始要采集数据集,这个数据集应包含不同人的身高以及判定高矮的条件,如表1-1 所示。

接下来则是算法调参。此处使用一种简单的算法:如果身高大于 x,则判定此人高;否则判定此人矮。该训练算法会依数据为 x 取一个合适的值。对于表中的数据而言,合理阈值应是170 cm。算法会把身高 170 cm以上的人判定为高,而把身高低于此值的人判定为矮。这样,我们的算法就可以为新数据分类。假如有一个身高为 167 cm 的人,尽管之前在数据集中并没有见到这样的人,但算法依然可以对其分类。 表 1-1 中数据的特征显然是身高。要确定人的高矮,就要采集身高数据。特征工程(feature engineering)是数据挖掘中的一个关键问题。在后面的章节里,我们会讨论如何选择适宜采集到数据集中的特征。这个步骤往往最终需要引入领域知识,或者至少要经过反复尝试才能取得成效。 本书用 Python 来介绍数据挖掘。为便于理解,本书有时更加关注代码和工作流程是否清晰易懂,而不是所采用的方法效率是否最优。因此,我们有时会跳过提高算法速度或效率的细节。

>Python数据挖掘入门与实践(第2版)

Python数据挖掘入门与实践(第2版)
作者: [澳]罗伯特•莱顿
isbn: 7115528020
书名: Python数据挖掘入门与实践(第2版)
页数: 268
译者: 亦念
定价: 79.00元
出版社: 人民邮电出版社
出版年: 2020-2
装帧: 平装