《Python机器学习经典实例》试读:1.1 简介
在这一章,我们将介绍以下主题:
数据预处理技术
标记编码方法
创建线性回归器(linear regressor)
计算回归准确性
保存模型数据
创建岭回归器(ridge regressor)
创建多项式回归器(polynomial regressor)
估算房屋价格
计算特征的相对重要性
评估共享单车的需求分布
1.1 简介
如果你熟悉机器学习的基础知识,那么肯定知道什么是监督学习。监督学习是指在有标记的样本(labeled samples)上建立机器学习的模型。例如,如果用尺寸、位置等不同参数建立一套模型来评估一栋房子的价格,那么首先需要创建一个数据库,然后为参数打上标记。我们需要告诉算法,什么样的参数(尺寸、位置)对应什么样的价格。有了这些带标记的数据,算法就可以学会如何根据输入的参数计算房价了。
无监督学习与刚才说的恰好相反,它面对的是没有标记的数据。假设需要把一些数据分成不同的组别,但是对分组的条件毫不知情,于是,无监督学习算法就会以最合理的方式将数据集分成确定数量的组别。我们将在后面章节介绍无监督学习。
建立书中的各种模型时,将使用许多Python程序包,像NumPy、SciPy、scikit-learn、matplotlib等。如果你使用Windows系统,推荐安装兼容SciPy关联程序包的Python发行版,网址为http://www.scipy.org/install.html,这些Python发行版里已经集成了常用的程序包。如果你使用Mac OS X或者Ubuntu系统,安装这些程序包就相当简单了。下面列出来程序包安装和使用文档的链接:
NumPy:http://docs.scipy.org/doc/numpy-1.10.1/user/install.html
SciPy:http://www.scipy.org/install.html
scikit-learn:http://scikit-learn.org/stable/install.html
matplotlib:http://matplotlib.org/1.4.2/users/installing.html
现在,请确保你的计算机已经安装了所有程序包。