第六章（2）

大刀 (持续努力，不断进步)

章节名：第六章（2）
2012-11-26 19:26:27

                                                        核函数和径向基函数
本书第五章介绍的是基函数展开。第六章介绍的是核平滑方法。对于分段多项式样条及其改进版（自然样条，自然三次样条之类的），都可以用B-样条来作为基函数。而B-样条基函数从其定义来看，都是局部的。只是定义在某个分段上或者区间上。而这种局部定义的基函数总是会或多或少削减掉一些全局效应。而核函数平滑方法则显得更为灵活和自由。
径向基函数是用核函数作为基函数。可谓结合了上述二者的想法。其模型为
($f(x)=\sum_{j=1}^M K_{\lambda_j}(\epsilon_j,x)\beta_j = \sum_{j=1}^M D(\frac{\|x-\epsilon_j\|}{\lambda_j})\beta_j$)
其中($\epsilon_j$)是位置参数，($\lambda_j$)是刻度参数。
学习参数的方法很多。最简单的是最小二乘方法。使用高斯核函数，利用最小二乘方法，其实就是RBF神经网络的模型：
($min_{ \lambda_j, \epsilon_j, \beta_j } \sum__{i=1}^N \left( y_i-\beta_0-\sum_{j=1}^M \beta_j exp{-\frac{(x_i-\epsilon_j)^T(x_i-\epsilon_j)}{\lambda_j^2} } \right)^2$)
其中位置参数和宽度参数通常是用非监督学习算法比如聚类啊，混合模型等方法估计的。模型系数($\beta_j$)是通过最小二乘或者其他最优算法估计得到的。
这里插播一段：
这两日在统计之都论坛上有对机器学习和统计学模型的区别进行讨论。这里发表一点个人看法。统计学模型偏重数据模型，即数据产生的机制，及其分布函数。因此在建立统计模型的时候往往会进行假设，比如随机误差服从正态分布之类的。基于这些假设可以做参数的假设检验，置信区间估计之类的。重点考察的模型的拟合好坏。而机器学习最重要的目的是预测，预测越准确越好。从这个角度来说，统计模型和机器学习方法所解决的问题是不同的。它们对于自然界现象的看法是不同的。机器学习所要解决的任务都是要最小化某种风险泛函。对于数据所产生的分布不做任何假设。各种最优化算法占据了核心的位置。Brieman的关于统计模型和机器学习的区分，我是很认同的。他说这是建模的two cultures。因此也形成了two communities。
我很认同的一种提法是数据科学家，而非将统计学隔离起来。传统的统计学家，偏重概率，分布的研究或许不能算是数据科学家。个人认为数据科学家所应该具备的素质，包括数理统计和概率论的知识，机器学习的模型，各种常用的最优化算法，以及对编程语言（C++，java），高级编程语言（R，python），数据库等知识要有全面的掌握。此外，需要有一颗积极的心，愿意去和其他领域的人合作，愿意学习其他应用领域的知识来解决特定的问题。
闲话结束，继续径向基。关于径向基函数，有一个很有意思的现象，就是会产生“黑洞”。
 
黑洞处的点，因为权重过小，而几乎等于无用。这难免造成了浪费，而通过重新标准化，则会填补黑洞。
($h_j(x)=\frac{D(\frac{||X-\epsilon_j||}{\lambda})}{\sum_{k=1}^M D(\frac{||X-\epsilon_j||){\lambda})}$)

那么看到这个，我们就很容易想到了，其实NW核回归也可以视作这样的重新标准化后的径向基函数展开。
($\sum_{i=1}^N y_i\frac{K_{\lambda}(x_0,x_i)}{\sum_{i=1}^N K_{\lambda}(x_0,x_i)}$)