第444页 梯度下降法
- 章节名:梯度下降法
- 页码:第444页
采用精确直线搜索的收敛性分析
($$\frac{log\left ( \left ( f(x^{(0)})-p^{*} \right )/\varepsilon \right )}{log(1/c)}$$)分子可以解释为初始次优性和最终次优性的比值的对数。表明所需要的迭代次数依赖于初始点的质量和对最终解的精度要求。 分母
($$log\left ( 1/c \right )=-log\left ( 1-m/M \right )\approx m/M$$)表明所需要的迭代次数的上界将随着M/m增大而近似性的增长 当
($$x^{*}$$)附近的f的Hessian矩阵具有很大的条件数时,需要进行很多次迭代,反之,当f的下水平集相对而言各向同性较好时,可以选择相对较小的条件数上界M/m。 上界
($$f(x^{(k)})-p^{*}\leq c^{*}\left ( f(x^{(0)})-p^{*} \right )$$)表明,误差
($$f(x^{(k)})-p^{*}$$)至少像几何数列那样快的收敛于0.(线性收敛) 采用回溯直线搜索的收敛性分析
($$f(x^{(k)})-p^{*}\leq c^{k}\left ( f(x^{(0)}) -p^{*}\right )$$)其中
($$c=1-min\left \{ 2m\alpha,2\beta \alpha m/M \right \}< 1$$)至少像几何数列那样快的收敛,其收敛指数依赖于条件数上界M/m。 结论: 梯度方法通常呈现近似线性收敛性质,即误差
($$f\left ( x^{(k)} \right )-p^{*}$$)以类似于几何数列的方式收敛于0 回溯参数a和b的取值对收敛性有明显的影响,但不会产生戏剧性的效果。精确直线搜索有时可以改善梯度方法的收敛性,但效果不是很大(或许不能抵消进行精确直线搜索增加的计算量)。 收敛速度强烈依赖于Hessian矩阵,或者下水平集的条件数。即使问题的条件数不是太坏(比如等于100),收敛速度也可能很慢。如果条件数很大(比如大于1000),梯度方法已经慢得失去使用价值 梯度方法的主要优势是比较简单,主要缺陷是其收敛速度非常强烈的依赖于Hessian矩阵和下水平集的条件数。
46人阅读
友邻对本书的所有笔记 · · · · · ·
-
第1页 引言
最小二乘问题具有很多统计意义,例如,给定包含高斯噪声的线性测量值时,向量X的最大思然估计...
-
第2页 引言——凸集的概念
1、仿射集&仿射组合——>仿射包 ($$\sum \theta_{i} = 0$$) 2、线性方程组的解集是仿...
-
第444页 梯度下降法
> 查看全部4篇
说明 · · · · · ·
表示其中内容是对原文的摘抄