第六章(1)
大刀 (持续努力,不断进步)
- 章节名:第六章(1)
维度灾难 dimensional curse 这个题目有点大。我对于高维问题也没有什么太多研究。本文仅仅是记录下学习的笔记。用以强化这方面的记忆而已。 局部方法 首先,要提一下局部方法。本书的第六章题目为Kernel smoothing methods。即核平滑方法。其是对最近邻方法的改进,对于目标点周围的其他点,依据其距离目标点的距离来赋予相应的权重(由近到远递减),由于权重是平滑的,因此会使得最近邻方法的拟合值或者估计值更为平滑。 对于局部方法(最近邻,局部回归之类)而言,其计算量是比较大的。因为对于每个点,都要做一次加权平均,或者加权最小二乘。然而,这种方法对于模型结构没有要求,因此比较灵活。 我还记得第一次见到lowess做散点图平滑时候的激动。那个时侯仅仅知道线性回归,多项式回归,也常常被这些模型差劲的拟合效果所困扰。可以想象当我第一次看到lowess对于非线性函数拟合的那么好的时候的兴奋和喜悦。 高维灾难 关于高维问题到底是灾难还是机遇,这个问题在这里不谈。这一节只罗列高维所带来的问题。 问题1.高维数据稀疏问题 ($e_p(r)=r^{\frac{1}{p}}$) 这个公式指($p$)空间中以某个点为中心,涵盖了百分之($r$)的点的高维近邻立方体的期望边界长度。 $e_{10}(0.1)=0.8$说明在10维空间中,以某个点为中心,选取10%的数据来作为其近邻,那么框起这些数据的高维立方体需要占原来空间的80%。可见在高维空间中,数据是相当稀疏的。 问题2.数据更靠边 考虑一个($p$)单位球体,其中均匀分布了($N$)个点。离球心最近的点到球心的距离为 ($d(p,N)=\left(1-\frac{1}{2}^{\frac{1}{N}}\right)^{\frac{1}{p}}$) $d(10,500) \approx 0.52$。已经超过了半径的一半了,可见高维空间中数据确实是更靠边分布。 问题3.抽样密度低 高维空间中抽样密度正比于($N^{\frac{1}{p}}$),因此在一维空间中抽100个点,在10维空间中就要抽($100^10$)才能达到同样的抽样密度。 ($MSE=Variance+Bias^2$) 对于局部方法,我们知道,当维度增高时,数据会变稀疏,并且更靠边,因此Bias会增大。这就是为什么在高维情况下局部方法会产生很多问题的原因。
这个图画出了随着维度的增加,MSE和Bias的增加。可以看出,本来主导MSE的是方差,偏差是很小的。而随着维度增加,偏差越来越大。这便给拟合和预测带了灾难。
说明 · · · · · ·
表示其中内容是对原文的摘抄