-
章节名:3.2.4 Posterior predictive distribution
-
页码:第71页
2013-04-27 17:11:02
这一章节很重要,是因为 Posterior predictive distribution 这个名词是在本书中第一次出现在这里,在书的后续章节多次出现了这个名词,比如 3.3.4, 3.4.4节等。
先看看MAP和MLE的定义,在第69页
($\widehat {h}^{MAP}=\mathop{\arg\max}_h p(h|D)=\mathop{\arg\max}_h \dfrac{p(D|h)p(h)}{p(D)}=\mathop{\arg\max}_h p(D|h)p(h) $)
($=\mathop{\arg\max}_h [\log p(D|h)+\log p(h)]$) (3.6)
($\widehat {h}^{MLE}=\mathop{\arg\max}_h p(D|h)=\mathop{\arg\max}_h [\log p(D|h)]$) (3.7)
MAP和MLE都是从可能的一堆h中,选择一个h,使得posterior和likelihood最大。这里h相当于是参数 ($\theta$)
跟Posterior predictive distribution有什么关系?
MAP和MLE是已知数据D,估计出参数h,然后可以把h代回 ($P(x=y|D)$),x是未知样本,求出x的label y。
Posterior predictive distribution也叫做Bayes model averaging(BMA, Hoeting et al. 1999)。
Posterior predictive distribution不是点估计(MLE,MAP都是点估计,过早的丢弃了其他h,只保留了一个h,过早优化是万恶之源!),而是把所有可能的P(h|D)加起来,每个posterior distribution给予不同的权重。这就是P71的公式 3.8 :
($p\left(\tilde{x}\in{C}|D\right)=\sum\limits_{h} p\left(y=1|\tilde{x},h\right)p\left(h|D\right)$) (3.8)
书中,($p\left(y=1|\tilde{x},h\right)$)叫做 prediction of each individual hypothesis,而($ p\left(h|D\right)$) 叫做 weight associated with each hypothesis。
公式(3.8)可以写成如下形式,更容易理解
($p(\tilde{\vec{x}}|\mathcal{D})=\sum\limits_{h}p(\tilde{\vec{x}}|h)p(h|\mathcal{D})$)
Wikipedia <http://en.wikipedia.org/wiki/Posterior_predictive_distribution> 上就是这么写的。
有个问题,从这个式子看($p(\tilde{\vec{x}}|\mathcal{D})$)有可能会大于1,怎么办?
BMA 的定义可以见这个帖子,http://metaoptimize.com/qa/questions/7885/what-is-the-relationship-between-mle-map-em-point-estimation ,它对MLE,MAP也有很精彩的解释:
感谢 @张巍(http://weibo.com/zh3f) 指出了 Posterior predictive distribution 这个概念与MAP,MLE的区别。
128人阅读