试验次数和后验分布的关系

求未知参数 θ\theta,数据集是 DD

θ\thetaDD 下的期望写成

  • Eθ[θD]=Ep(θD)[θD]=θp(θD)dθ\mathrm{E}_{\theta}[\boldsymbol{\theta} \mid D]=\mathrm{E}_{p(\theta \mid D)}[\boldsymbol{\theta} \mid D]=\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \boldsymbol{D}) \mathrm{d} \boldsymbol{\theta}

如果取遍全部的数据集,期望可以写成

  • Eθ[θ]=ED[Eθ[θD]]={θp(θD)dθ}p(D)dD=θ{p(θ,D)dD}dθ=θp(θ)dθ=Ep(θ)[θ]\begin{aligned} \mathrm{E}_\theta[\boldsymbol{\theta}] =\mathrm{E}_D\left[\mathrm{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid D]\right] & =\int\left\{\int \boldsymbol{\theta} p(\boldsymbol{\theta} \mid \boldsymbol{D}) \mathrm{d} \boldsymbol{\theta}\right\} p(\boldsymbol{D}) \mathrm{d} D \\ & =\int \boldsymbol{\theta}\left\{\int p(\boldsymbol{\theta}, D) \mathrm{d} D\right\} \mathrm{d} \boldsymbol{\theta} \\ & =\int \boldsymbol{\theta} p(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \\ & =\mathrm{E}_{p(\boldsymbol{\theta})}[\boldsymbol{\theta}]\end{aligned}

θ{\theta} 的先验均值 Eθ[θ]\mathrm{E}_\theta[\boldsymbol{\theta}] = 后验均值在全部数据集下的期望 ED[Eθ[θD]]\mathrm{E}_D\left[\mathrm{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid D]\right]

  • 先验期望和数据集无关

[[PRML/2.24]] 参数 θ{\theta} 先验分布的方差等于参数 θ{\theta} 后验分布方差的均值加上后验分布均值的方差

  • varθ[θ]=ED[varθ[θD]]+varD[Eθ[θD]]\operatorname{var}_\theta[\boldsymbol{\theta}]=\mathbb{E}_{\mathcal{D}}\left[\operatorname{var}_\theta[\boldsymbol{\theta} \mid \mathcal{D}]\right]+\operatorname{var}_{\mathcal{D}}\left[\mathbb{E}_{\boldsymbol{\theta}}[\boldsymbol{\theta} \mid \mathcal{D}]\right]

  • 在考虑了全部的数据集后,后验方差的均值总是小于等于先验方差。
    ls-type:: annotation
    hl-page:: 65
    hl-color:: yellow

    • 根据 2.24 可以推导出 varθ[θ]ED[varθ[θD]]\operatorname{var}_\theta[\boldsymbol{\theta}] \geq \mathrm{E}_D\left[\operatorname{var}_\theta[\boldsymbol{\theta} \mid \boldsymbol{D}]\right],后验分布均值的方差总是大于等于 0

    • 给定某个数据集时,参数 theta 的方差会小于等于给定数据集之前的方差。

      • 只有这样才能满后验方差的均值小于等于先验方差

        • 可学习,用数据训练出来的参数比先验参数更加有意
      • 特定数据集下(数据集构造不合理,数据集没有正确反应数据集的整体特性), theta 的后验方差反而比先验方差更大 varθ[θ]<varθ[θD]\operatorname{var}_\theta[\theta]<\operatorname{var}_\theta\left[\theta \mid D^{\prime}\right]

试验越多,模型参数(后验)越准,方差越小。为什么不用先验而是用后验的原因。

作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议


网络回响

评论