Patrick 保公子对《统计学习导论》的笔记(3)

Patrick 保公子
Patrick 保公子 (那我就继续幼稚下去喽)

在读 统计学习导论

统计学习导论
  • 书名: 统计学习导论
  • 作者: Gareth James/Daniela Witten/Trevor Hastie
  • 副标题: 基于R应用
  • 页数: 290
  • 出版社: 机械工业出版社
  • 出版年: 2015-5-1
  • 第1页

    统计学习(statistical learning)是一套以理解数据为目的的庞大工具集。

    统计学习的工具分为两类:

    1、有指导的学习(supervised):有两种用途,一是建立,二是input->output

    2、无指导的学习(unsupervised)

    回归问题(regression):输出变量类型是连续型的

    分类问题(classification):非数值变量,即分类或定性的输出

    聚类问题(clustering):不输出变量

    2018-11-19 22:17:15 回应
  • 第11页

    输入变量(input variable)=预测变量(predictor)=自变量(independent)=属性变量(feature)=变量(variable)=X

    输出变量(output variable)=响应(response)=因变量(dependent variable)=Y

    假设观察到一个定量的响应变量Y和p个不同的预测变量,记为X1,X2,...,Xp,则Y=f(X)+e,(注:e是希腊字母epsilon)

    ƒ是X1,X2,...,Xp的函数,它是fixed and unkonwn function,e是随机误差项(error term),与X独立,且均值为0。

    这种形式下,ƒ表达了X提供给Y的系统信息(systematic information)

    2.1.1when

    估计f的主要原因有两个:预测(prediction)和推断(inference)

    预测:

    输入集X是现成的,输出Y是不易获得的,因为误差均值为0,可以通过下式预测:

    ^Y=^ƒ(X)

    这里^ƒ表示ƒ的预测,^Y表示Y的预测。这个式子中^ƒ是黑箱(black box),如果能提供准确Y的预测,不需要知道ƒ的确切数字

    ^Y作为响应变量Y的预测,其精确性依赖于两个量,可约误差(reducible error)和不可约误差(irreducible error)

    无论对ƒ的预测多准确都不能减少e引起的误差,e就是不可约误差

    E(Y-^Y)^2=E[ƒ(X)+e-ƒ(^X)]^2=[ƒ(X)-^ƒ(X)]^2+Var(e),不可约误差提供了Y预测精度的一个上界,但在实践中实际上是未知的

    推断:

    估计ƒ的目标不是为了预测Y,而是去理解Y作为X的函数是如何变化的,这种情况下,ƒ不能当作黑箱

    2.1.2how

    训练数据(training data):观测点,{(x1,y1),(x2,y2),...,(xn,yn)},其中xi=(xi1,xi2,...,xip)T

    统计学习方法分为两类:参数方法和非参数方法

    参数方法是一种基于模型估计的两阶段方法。

    (1)假设函数ƒ具有一定的形式或形状

    (2)一旦模型被选中,需要用训练数据集去拟合(fit)或训练(train)模型,拟合最常用的方法是最小二乘法(OLS)

    基于模型的方法统称为参数法(parametric)

    假如选择的模型与真实的ƒ差距太大,估计的效果也会很差,一种解决思路是通过选择灵活(flexible)模型拟合很多不同形式的函数ƒ。

    一般来说,灵活度强的模型需要更多的参数估计。

    拟合复杂的模型会导致另一个过度拟合(overfitting)的现象,表示模型拟合了错误或噪声(noise)

    非参数方法

    非参数方法不需要对函数ƒ的形式做事先明确的假设,但无法将估计ƒ的问题简化到仅对少量参数进行估计的问题,往往需要大量的观测点。

    2.1.4指导学习和无指导学习

    许多传统的统计学习方法,都属于指导学习范畴,包括线性回归、logistics regression、广义可加模型(GAM)、提升方法(boosting)和支持向量机(SVM)。

    聚类分析(cluster analysis)是一种典型的无指导(unsupervised)学习。

    半指导学习(semi supervised learning)

    2.1.5 回归与分类问题

    变量常分为定量和定性(也称为分类变量)两种类型,定量变量呈现数值型。

    我们习惯将响应变量为定量的问题称为回归分析问题,将具有定性响应变量的问题定义为分类问题。

    2018-11-19 23:11:20 回应
  • 第21页

    2.2.1拟合效果检验

    在回归中,最常用的是均方误差(mean squared error,MSE),其表达式为

    MSE=1/n ∑(yi-^ƒ(xi))^2

    MSE是用训练数据计算出来的,由于训练数据本来就是用来拟合模型的,预测精准程度比较高,称为训练均方误差(trainning MSE)

    如果掌握了大量的测试数据,可计算 Ave(^ƒ(x0)-y0)^2

    这是测试观察点(x0,y0)的均方预测误差,选择模型应使测试均方误差(test MSE)尽可能小。

    如何选择一个使测试均方误差小的模型:可以使用一组没被用于建立模型的观测数据做测试数据;

    一些观点认为通过降低训练均方误差来选择统计学习模型也是可以的,其缺陷是训练均方误差最小时,不能保证模型测试均方误差同时很小。

    自由度(degree of freedom)是描述曲线灵活度的量。

    统计学习的基本特征:当统计学习方法的灵活度增加时,观察到的训练均方误差单调递减,测试均方误差呈U型分布。

    当所建的模型产生一个较小的训练均方误差,但却有一个较大的测试均方误差,就称该数据被过度拟合。

    在实际问题中估计这个最小点,一个重要方法是交叉验证(cross-validation)

    2.2.2 偏差-方差权衡

    在给定值X0时,期望测试均方误差可以分解为三个基本量的和,分别为:^ƒ(x0)的方差,^ƒ(x0)偏差的平方,误差项的方差

    E(y0-^ƒ(x0))^2=Var(^ƒ(x0))+[Bias(^ƒ(x0))]^2+Var(e)

    E(y0-^ƒ(x0))^2是模型的期望测试均方误差(expected test MSE),实际上是用训练数据估计ƒ后再带入不同估计所得的平均测试均方误差(average test MSE)

    为使期望测试误差达到最小,需要选择一种统计学习方法使方差和偏差同时达到最小,且期望测试误差不可能比不可约误差小。

    一般来说,灵活度越高的统计模型有越高的方差。同时灵活度越高的方法产生的偏差越小。

    偏差-方差的权衡(bias-variance trade-off)

    2.2.3 分类模型

    假设建模目标是在训练集上寻找对ƒ的估计,其中y1,...,yn是定性变量。

    常用的衡量^ƒ的方法是训练错误率(error rate),也就是对训练数据使用估计模型^ƒ所造成的误差比例,1/n∑I(yi≠^yi)

    ^yi是使用ƒ预测数据的第i个值

    I(yi≠^yi)是示性变量(indicator variable),当≠时值为1,当=时为0 。

    如果I(yi)=0,那么第i个观测值用分类模型实现了正确的分类,否则是被误分类了。

    在一组测试观测值(x0,y0)上的误差计算具有以下形式,Ave(I(yi≠^yi)),一个好的分类器使误差最小。

    贝叶斯分类器

    讲一个待判的X0分配到下面这个式子最大的那个j类上是合理的, Pr(Y=j|X=x0),这类简单的分类方法叫贝叶斯分类器(Bayes classifer)

    在一个二分类问题中,只有两个可能响应值,一个称为类别1,一个类别2,如果Pr(Y=1|X=x0)>0.5,将类别预测为1,否则为2

    概率等于50%的点连成的线称为贝叶斯决策边界(Bayes decision boundary),贝叶斯分类器的预测由贝叶斯边界决定。

    贝叶斯分类器将产生最低的错误错误率,称为贝叶斯错误率,整个的贝叶斯错误率为1-E(max Pr(Y=j|X))

    K最近邻分类器(KNN)

    给一个正整数K和一个测试观测值x0,KNN分类器从识别训练集中K个最靠近x0的点集开始,用N0表示K个点的集合,然后对每个类别j分别用N0中的点估计一个分值作为条件概率的估计,这个值等于j: Pr(Y=j|X=x0)=1/K ∑ I(Yj=j),最后对KNN方法运用贝叶斯规则将测试观测值x0分到概率最大的类中。

    2018-11-20 00:11:35 回应