试验次数和后验分布的关系
求未知参数 $\theta$,数据集是 $D$
将 $\theta$ 在 $D$ 下的期望写成
- $\mathrm{E}{\theta}[\boldsymbol{\theta} \mid D]=\mathrm{E}{p(\theta \mid D)}[\boldsymbol{\theta} \mid D]=\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \boldsymbol{D}) \mathrm{d} \boldsymbol{\theta}$
如果取遍全部的数据集,期望可以写成
- $\begin{aligned} \mathrm{E}\theta[\boldsymbol{\theta}] =\mathrm{E}D\left[\mathrm{E}{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid D]\right] & =\int\left{\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \boldsymbol{D}) \mathrm{d} \boldsymbol{\theta}\right} p(\boldsymbol{D}) \mathrm{d} D \ & =\int \boldsymbol{\theta}\left{\int p(\boldsymbol{\theta}, D) \mathrm{d} D\right} \mathrm{d} \boldsymbol{\theta} \ & =\int \boldsymbol{\theta} p(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \ & =\mathrm{E}{p(\boldsymbol{\theta})}[\boldsymbol{\theta}]\end{aligned}$
${\theta}$ 的先验均值 $\mathrm{E}_\theta[\boldsymbol{\theta}]$ = 后验均值在全部数据集下的期望 $\mathrm{E}D\left[\mathrm{E}{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid D]\right]$ 。
- 先验期望和数据集无关
[[PRML/2.24]] 参数 ${\theta}$ 先验分布的方差等于参数 ${\theta}$ 后验分布方差的均值加上后验分布均值的方差
$\operatorname{var}\theta[\boldsymbol{\theta}]=\mathbb{E}{\mathcal{D}}\left[\operatorname{var}\theta[\boldsymbol{\theta} \mid \mathcal{D}]\right]+\operatorname{var}{\mathcal{D}}\left[\mathbb{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid \mathcal{D}]\right]$
在考虑了全部的数据集后,后验方差的均值总是小于等于先验方差。
ls-type:: annotation
hl-page:: 65
hl-color:: yellow根据 2.24 可以推导出 $\operatorname{var}_\theta[\boldsymbol{\theta}] \geq \mathrm{E}D\left[\operatorname{var}\theta[\boldsymbol{\theta} \mid \boldsymbol{D}]\right]$,后验分布均值的方差总是大于等于 0
给定某个数据集时,参数 theta 的方差会小于等于给定数据集之前的方差。
只有这样才能满后验方差的均值小于等于先验方差
- 可学习,用数据训练出来的参数比先验参数更加有意
特定数据集下(数据集构造不合理,数据集没有正确反应数据集的整体特性), theta 的后验方差反而比先验方差更大 $\operatorname{var}\theta[\theta]<\operatorname{var}\theta\left[\theta \mid D^{\prime}\right]$
试验越多,模型参数(后验)越准,方差越小。为什么不用先验而是用后验的原因。