Bayes theorem

[[Bayesian]]概率:概率很难求,求反概率就很容易。

P(θX)=P(Xθ)P(θ)P(X)P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)}

  • posterior=likehoodpriorevidenceposterior = \frac{likehood * prior}{evidence}

  • posterior 后验概率 P(θX)P(\theta|X) :<-> 通过样本 X 得到 theta 的概率

  • likehood 似然函数 P(Xθ)P(X|\theta) :<-> 通过参数 theta 得到样本 X 的概率

  • prior [[先验概率]] P(θ)P(\theta) :<-> 在试验尚未发生前,对参数 θ\theta 的估计

    • 客观先验概率 :<-> 利用过去历史资料计算出来得到的先验概率
    • 主观先验概率 :<-> 凭主观经验来判断而得到的先验概率
  • evidence :<-> 样本 x 发生的概率
    [[极大似然估计]]

  • 核心思想:当前发生的事件是概率最大的事件,给定数据集,使得该数据集发生的概率最大求模型中的参数。

    • 最大化似然函数 p(Xθ)=x1xnp(xiθ)p(X \mid \theta)=\prod_{x_1}^{x_n} p(x_i \mid \theta)

    • 对似然函数取对数变成对数似然函数方便计算

  • 计算似然估计只关注当前的样本(当前已经发生的事情,不考虑事情的先验情况)

[[最大后验估计]]

贝叶斯估计

See

Ref


Bernoulli Distribution

f(x)=px(1p)1xf(x)=p^x(1-p)^{1-x}

E(x)=xf(x)=0(1p)+p=pE(x)=xf(x)= 0 * (1-p) + p= p
D(x)=p(1p)D(x)=p(1-p)
抛一次硬币

求解唯一的参数 μ\mupp

  • 根据似然函数

    • p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xnp(\mathcal{D} \mid \mu)=\prod_{n=1}^N p\left(x_n \mid \mu\right)=\prod_{n=1}^N \mu^{x_n}(1-\mu)^{1-x_n}
  • 求对数似然函数

    • lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}\ln p(\mathcal{D} \mid \mu)=\sum_{n=1}^N \ln p\left(x_n \mid \mu\right)=\sum_{n=1}^N\left\{x_n \ln \mu+\left(1-x_n\right) \ln (1-\mu)\right\}
  • 对对数似然求导,令结果等于 0

    • μML=1Nn=1Nxn\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^N x_n

样本的均值是伯努利分布的[[充分统计量]] sufficient statistic
ls-type:: annotation
hl-page:: 89
hl-color:: yellow
(分布的参数 μ\mu 可以由该统计量估计得到)


Box-Cox transformation

标准变换

  • y(λ)={yiλ1λ, 如果 λ0;ln(yi), 如果 λ=0.y(\lambda)=\left\{\begin{array}{l}\frac{y_i^\lambda-1}{\lambda}, \text { 如果 } \lambda \neq 0 ; \\ \ln \left(y_i\right), \text { 如果 } \lambda=0 .\end{array}\right.

选择 λ\lambda 使得变换后的样本正态性最好

常用 λ\lambda 值,y(λ)=yiλy(\lambda)= y_i^{\lambda}

  • λ=2,y(λ)=yi2\lambda = 2, y(\lambda)= y_i^2

  • λ=0.5,y(λ)=yi\lambda = 0.5, y(\lambda)= \sqrt {y_i}

  • λ=0.5,y(λ)=1yi\lambda = -0.5, y(\lambda)= \frac{1}{\sqrt {y_i}}

  • λ=1,y(λ)=1yi\lambda = -1, y(\lambda)= \frac{1}{y_i}

Ref


KL Divergence

作用:衡量 两个分布之间的距离
为什么不对称 :-> 计算两个分布之间的不同,从分布 A 的角度看分布 B 的相似程度
特点

  • 1.非负性::<-> KL(PQ)0\mathrm{KL}(\mathrm{P} \| \mathrm{Q}) \geq 0
  • 2.非对称性 :<-> KL(PQ)KL(QP)K L(P \| Q) \neq K L(Q \| P)
  • 3.当且仅当 P=QP=Q 时 :<-> KL(PQ)=0K L(P \| Q)=0
    一个分布相比于另外一个分布的信息损失。

DKL(AB)=iPA(xi)log(PA(xi)PB(xi))=iPA(xi)log(PA(xi))PA(xi)log(PB(xi))D_{K L}(A \| B)=\sum_{i} P_{A}\left(x_{i}\right) \log \left(\frac{P_{A}\left(x_{i}\right)}{P_{B}\left(x_{i}\right)}\right)=\sum_{i} P_{A}\left(x_{i}\right) \log \left(P_{A}\left(x_{i}\right)\right)-P_{A}\left(x_{i}\right) \log \left(P_{B}\left(x_{i}\right)\right)

A和B的交叉熵 = A与B的KL散度 - A的熵。

  • DKL(AB)=H(A,B)H(A){D_{K L}(A \| B)=H(A, B)-H(A)}
    机器学习模型学到的分布和真实数据的分布越接近越好,但是现实中只能让模型学到的分布和训练数据的分布尽量相同,即 KL 散度最小。

  • 熵 H(A) 是不依赖 B 的常数,固定 A,根据上面的公式最小化 KL 相当于最小化 H(A, B)。

  • 由于训练数据是固定的,H(A) 不变。

  • 如果 A 是固定的,关于 B 的优化 KL 散度等于优化交叉熵。

P 真实样本的分布,Q模型预测样本的分布,如果 Q 越接近 P,散度就越小。散度的值非负。

  • P 是未知分布,Q 是已知分布

  • D(pq)=xp(x)logp(x)q(x)=Ep(x)(logp(x)q(x))D(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}=E_{p(x)}\left(\log \frac{p(x)}{q(x)}\right)
    [[@百面机器学习]]

  • KL 距离不是真正的距离,不满足 三角形不等式交换律
    KL散度理解 - 知乎

  • 如何证明 KL 散度大于等于 0 #card

    • KL(PQ)=P(x)lnP(x)Q(x)dx=P(x)lnQ(x)P(x)dxP(x)(Q(x)P(x)1)dx=Q(x)P(x)dx=0\begin{aligned} \mathrm{KL}(P \| Q) & =\int P(x) \ln \frac{P(x)}{Q(x)} d x \\ & =-\int P(x) \ln \frac{Q(x)}{P(x)} d x \\ & \geq-\int P(x)\left(\frac{Q(x)}{P(x)}-1\right) d x \\ & =-\int Q(x)-P(x) d x \\ & =0\end{aligned}

    • 推导中第三行利用不等式 ln(x)x1ln(x) \le x-1

    • 最后一行 Q(x)Q(x)P(x)P(x) 都是概率密度函数,所以积分值都等于1

  • 最小化 Kullback-Leibler 散度等价于最大化似然函数


L1和L2正则的先验分布

[[MAP]] 公式 :-> logP(x,w)P(w)=logP(x,w)+logP(w){\log P(x,w)P(w) = \log P(x,w) + \log P(w)}

  • [[L2 Regularization]] 中参数先验分布 [[Normal Distribution]]
    + P(wj)P(w_j) :-> 1σ2πe(wj)22σ2\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(w_j)^{2}}{2 \sigma^{2}}}
    + logP(w)=logjP(wj)=logj[12πσe(wj)22σ2]\log P(w)=\log \prod_{j} P\left(w_{j}\right)= \log \prod_{j}\left[\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(w_{j}\right)^{2}}{2 \sigma^{2}}}\right] :<-> 12σ2jwj2+C-\frac{1}{2 \sigma^{2}} \sum_{j} w_{j}^{2}+C
  • [[L1 Regularization]] 中参数先验分布 [[Laplace Distribution]]
    + P(wj)P\left(w_{j}\right) :-> 12aewja\frac{1}{\sqrt{2 a}} e^{\frac{\left|w_{j}\right|}{a}}
    + logP(w)=logjP(wj)=logj[12aσewja]\log P(w)=\log \prod_{j} P\left(w_{j}\right)=\log \prod_{j}\left[\frac{1}{\sqrt{2 a} \sigma} e^{-\frac{w_{j}}{a}}\right] :<-> 12ajwj+C-\frac{1}{2 a} \sum_{j}\left|w_{j}\right|+C
    id:: 3c341e2e-412f-4ca1-a4cb-d8175fdb21ad

Log-Normal Distribution

一个随机变量的对数服从 [[正态分布]],则该随机变量服从对数正态分布。

  • 对于一条路线的 ETA 来说,有一个无人可及的最小时间,然后是少数一些非常快的司机,接下来是普通司机最具代表性的完成时间形成一个高峰,最后是尾部一长串的“掉队者”。

ln(Y)N(μ,σ2)\ln (Y) \sim N\left(\mu, \sigma^2\right)

[[概率密度函数]]

  • flgN(x;μ,σ)=1xσ2πe(lnxμ)22σ2f_{\lg -N}(x ; \mu, \sigma)=\frac{1}{x \sigma \sqrt{2 \pi}} e^{-\frac{(\ln x-\mu)^2}{2 \sigma^2}}

期望

  • E(x)=eμ+σ22E(x)=e^{\mu+\frac{\sigma^2}{2}}

方差

  • D(X)=(eσ21)e2μ+σ2D(X)=\left(e^{\sigma^2}-1\right) e^{2 \mu+\sigma^2}

Tanh

f(z)=tanh(z)=ezezez+ezf(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}

图像

image.png


傅里叶变换

任意一个函数表示成诺干个正交函数的线性组合。

时域 空间域

  • x 轴是时间

  • 例子

    • 信号

      • 一个物理量在时间上的变换
    • 三角函数图

频域 变换域

  • x 轴是频率

  • y 轴是对应频率下的增幅

时域到频域变换 #card

F(ω)=+f(t)eiωt dtF(\omega)=\int_{-\infty}^{+\infty} f(t) \cdot e^{-i \omega t} \mathrm{~d} t

  • F(f)=+f(t)ei2πft dtF(f)=\int_{-\infty}^{+\infty} f(t) \cdot e^{-i 2 \pi f t} \mathrm{~d} t

欧拉公式

使用正弦曲线做为基,会考虑整个坐标轴情况

  • g 函数是指数函数 [[拉普拉斯变换]]

  • 高斯分布做 g 函数的变换 [[Gabor Transform]]

+ s 控制窗口位置

+ $\vec{d}_{n, s}=g(t-s) \cdot e^{i n t}$

ga(ts)=12πae(ts)24a×2g_a(t-s)=\frac{1}{2 \sqrt{\pi a}} e^{-\frac{(t-s)^2}{4 a}} \times 2

  • 窗口大小不固定 [[小波变换]]


协方差

衡量^两个随机变量^各个维度偏离其均值的程度

  • 协方差值含义

    • 正值说明两个变量正相关

    • 负值说明两个变量负相关

    • 零值说明两个变量相互独立

  • 方差是协方差的一种特殊情况

  • 两个随机变量都是多维的

协方差矩阵:

  • ij 是第 i 个与第 j 个随机变量的协方差

  • ij=cov(Xi,Xj)=E[(Xiμi)(Xjμj)T]\sum _{ij}=cov (X_i,X_j)=E[(X_i-\mu_i)(X_j - \mu_j)^T]

  • 如果变量是 d 维,那么协方差 $$\sum = d * d$$ 维

[[Ref]]


方差

有偏估计与[[无偏估计]]

  • 样本方差与整体方差相等时是无偏估计,样本方差分母是 n-1 为了追求无偏估计

无偏估计

计算总体的均值和方差时,拿到的数据是对总体的采样,因此计算出的方差比总体方差小σ2n\frac{\sigma^2}{n}


时间序列预测/基本数学概念

自协方差

  • 信号与其经过时间平移的信号之间的[[协方差]]

    • 信号与其自身经过一定时间平移之后的相似性
  • r(k)=1nΣt=k+1n(ZtZˉ)(ZtkZˉ)r(k)=\frac{1}{n} \Sigma_{t=k+1}^n\left(Z_t-\bar{Z}\right)\left(Z_{t-k}-\bar{Z}\right)

[[自相关]]系数 ACF

  • ACF(k)=Σt=k+1n(ZtZˉ)(ZtkZˉ)Σt=1n(ZtZˉ)2A C F(k)=\Sigma_{t=k+1}^n \frac{\left(Z_t-\bar{Z}\right)\left(Z_{t-k}-\bar{Z}\right)}{\Sigma_{t=1}^n\left(Z_t-\bar{Z}\right)^2}

  • 衡量信号其自身在不同时间点的相关度

  • 找出重复模式或识别隐含在谐波频率中小时的基频

偏自相关系数 [[PACF]]

  • 自相关衡量想要衡量 z(t) 和 z(t-k) 的相关关系,实际上 z(t) 还会受到 z(t-1) 到 z(t-k-1) 的影响。

  • PACF 单纯测量 z(t-k) 对 z(t) 的影响

    • PACF(k)=E(ZtEZt)(ZtkEZtk)E(ZtEZt)2E(ZtkEZtk)2=cov[(ZtZˉt),(ZtkZtk)]var(ZtZˉt))var(ZtkZtk)P A C F(k)=\frac{E\left(Z_t-E Z_t\right)\left(Z_{t-k}-E Z_{t-k}\right)}{\sqrt{E\left(Z_t-E Z_t\right)^2} \sqrt{E\left(Z_{t-k}-E Z_{t-k}\right)^2}}=\frac{\operatorname{cov}\left[\left(Z_t-\bar{Z}_t\right),\left(Z_{t-k}-Z_{t-k}^{-}\right)\right]}{\left.\sqrt{\left.\operatorname{var}\left(Z_t-\bar{Z}_t\right)\right)} \sqrt{\operatorname{var}\left(Z_{t-k}-Z_{t-k}^{-}\right.}\right)}
  • 偏相关

    • 计算某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视为常数u,即暂时不考虑其他要素的影响,而单独研究那两个要素之间的相互关系的密切程度
  • PACF 和 ACF 区别

    • ACF 一个期望,用整个时间序列的期望

    • PACF 两个期望,两个序列用各自序列的期望


期望

离散情况下:结果乘以结果概率的总和

连续 $$E(x) = \int xf(x)dx$$


自相关

缩写 :-> ACF

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# https://github.com/Arturus/kaggle-web-traffic/blob/master/make_features.py#L88
def single_autocorr(series, lag):
"""
Autocorrelation for single data series
:param series: traffic series
:param lag: lag, days
:return:
"""
s1 = series[lag:]
s2 = series[:-lag]
ms1 = np.mean(s1)
ms2 = np.mean(s2)
ds1 = s1 - ms1
ds2 = s2 - ms2
divider = np.sqrt(np.sum(ds1 * ds1)) * np.sqrt(np.sum(ds2 * ds2))
return np.sum(ds1 * ds2) / divider if divider != 0 else 0

Rk=i=1nk(XiXˉ)(Xi+kXˉ)i=1n(XiXˉ)2R_{k}=\frac{\sum_{i=1}^{n-k}\left(X_{i}-\bar{X}\right)\left(X_{i+k}-\bar{X}\right)}{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}

  • 取值范围 -1 到 1,越大越相关

  • 比如一个序列长度是 L,如果具有周期性且周期性为 t,那么子序列 0:L-1-t 和 子序列 t:L-1 的相关性是最大的

Ref