标签: Mathematics - 算法花园

2024-10-052025-02-10 随手记 3 分钟读完 (大约428个字)

Bayes theorem

[[Bayesian]]概率：概率很难求，求反概率就很容易。

$P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)}$

$posterior = \frac{likehood * prior}{evidence}$
posterior 后验概率 $P(\theta|X)$ :<-> 通过样本 X 得到 theta 的概率
likehood 似然函数 $P(X|\theta)$ :<-> 通过参数 theta 得到样本 X 的概率
prior [[先验概率]] $P(\theta)$ :<-> 在试验尚未发生前，对参数 $\theta$ 的估计
- 客观先验概率 :<-> 利用过去历史资料计算出来得到的先验概率
- 主观先验概率 :<-> 凭主观经验来判断而得到的先验概率
evidence :<-> 样本 x 发生的概率
[[极大似然估计]]
核心思想：当前发生的事件是概率最大的事件，给定数据集，使得该数据集发生的概率最大求模型中的参数。
- 最大化似然函数 $p(X \mid \theta)=\prod_{x_1}^{x_n} p(x_i \mid \theta)$
- 对似然函数取对数变成对数似然函数方便计算
计算似然估计只关注当前的样本(当前已经发生的事情，不考虑事情的先验情况)

[[最大后验估计]]

贝叶斯估计

See

[[L1和L2正则的先验分布]]

Ref

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约122个字)

Box-Cox transformation

标准变换

$y(\lambda)=\left\{\begin{array}{l}\frac{y_i^\lambda-1}{\lambda}, \text { 如果 } \lambda \neq 0 ; \\ \ln \left(y_i\right), \text { 如果 } \lambda=0 .\end{array}\right.$

选择 $\lambda$ 使得变换后的样本正态性最好

常用 $\lambda$ 值， $y(\lambda)= y_i^{\lambda}$

$\lambda = 2, y(\lambda)= y_i^2$
$\lambda = 0.5, y(\lambda)= \sqrt {y_i}$
$\lambda = -0.5, y(\lambda)= \frac{1}{\sqrt {y_i}}$
$\lambda = -1, y(\lambda)= \frac{1}{y_i}$

Ref

Box-Cox 变换的方法和公式 - Minitab

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约185个字)

Bernoulli Distribution

$f(x)=p^x(1-p)^{1-x}$

$E(x)=xf(x)= 0 * (1-p) + p= p$
$D(x)=p(1-p)$
抛一次硬币

求解唯一的参数 $\mu$ 或 $p$

根据似然函数
- $p(\mathcal{D} \mid \mu)=\prod_{n=1}^N p\left(x_n \mid \mu\right)=\prod_{n=1}^N \mu^{x_n}(1-\mu)^{1-x_n}$
求对数似然函数
- $\ln p(\mathcal{D} \mid \mu)=\sum_{n=1}^N \ln p\left(x_n \mid \mu\right)=\sum_{n=1}^N\left\{x_n \ln \mu+\left(1-x_n\right) \ln (1-\mu)\right\}$
对对数似然求导，令结果等于 0
- $\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^N x_n$

样本的均值是伯努利分布的[[充分统计量]] sufﬁcient statistic
ls-type:: annotation
hl-page:: 89
hl-color:: yellow
（分布的参数 $\mu$ 可以由该统计量估计得到）

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约27个字)

FFT

快速傅里叶变换 - OI Wiki (oi-wiki.org)

Algorithm, Mathematics

2024-10-052025-03-09 随手记 4 分钟读完 (大约593个字)

KL Divergence

作用：衡量 两个分布之间的距离
为什么不对称 :-> 计算两个分布之间的不同，从分布 A 的角度看分布 B 的相似程度
特点

1．非负性：:<-> $\mathrm{KL}(\mathrm{P} \| \mathrm{Q}) \geq 0$
2．非对称性 :<-> $K L(P \| Q) \neq K L(Q \| P)$
3．当且仅当 $P=Q$ 时 :<-> $K L(P \| Q)=0$
一个分布相比于另外一个分布的信息损失。

D_{K L}(A \| B)=\sum_{i} P_{A}\left(x_{i}\right) \log \left(\frac{P_{A}\left(x_{i}\right)}{P_{B}\left(x_{i}\right)}\right)=\sum_{i} P_{A}\left(x_{i}\right) \log \left(P_{A}\left(x_{i}\right)\right)-P_{A}\left(x_{i}\right) \log \left(P_{B}\left(x_{i}\right)\right)

A和B的交叉熵 = A与B的KL散度 - A的熵。

${D_{K L}(A \| B)=H(A, B)-H(A)}$
机器学习模型学到的分布和真实数据的分布越接近越好，但是现实中只能让模型学到的分布和训练数据的分布尽量相同，即 KL 散度最小。
熵 H(A) 是不依赖 B 的常数，固定 A，根据上面的公式最小化 KL 相当于最小化 H(A, B)。
由于训练数据是固定的，H(A) 不变。
如果 A 是固定的，关于 B 的优化 KL 散度等于优化交叉熵。

P 真实样本的分布，Q模型预测样本的分布，如果 Q 越接近 P，散度就越小。散度的值非负。

P 是未知分布，Q 是已知分布
$D(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}=E_{p(x)}\left(\log \frac{p(x)}{q(x)}\right)$
[[@百面机器学习]]
KL 距离不是真正的距离，不满足 三角形不等式 和 交换律
KL散度理解 - 知乎
如何证明 KL 散度大于等于 0 #card
- $\begin{aligned} \mathrm{KL}(P \| Q) & =\int P(x) \ln \frac{P(x)}{Q(x)} d x \\ & =-\int P(x) \ln \frac{Q(x)}{P(x)} d x \\ & \geq-\int P(x)\left(\frac{Q(x)}{P(x)}-1\right) d x \\ & =-\int Q(x)-P(x) d x \\ & =0\end{aligned}$
- 推导中第三行利用不等式 $ln(x) \le x-1$
- 最后一行 $Q(x)$ 和 $P(x)$ 都是概率密度函数，所以积分值都等于1
最小化 Kullback-Leibler 散度等价于最大化似然函数

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约144个字)

L1和L2正则的先验分布

[[MAP]] 公式 :-> ${\log P(x,w)P(w) = \log P(x,w) + \log P(w)}$

[[L2 Regularization]] 中参数先验分布 [[Normal Distribution]]
+ $P(w_j)$ :-> $\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(w_j)^{2}}{2 \sigma^{2}}}$
+ $\log P(w)=\log \prod_{j} P\left(w_{j}\right)= \log \prod_{j}\left[\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(w_{j}\right)^{2}}{2 \sigma^{2}}}\right]$ :<-> $-\frac{1}{2 \sigma^{2}} \sum_{j} w_{j}^{2}+C$
[[L1 Regularization]] 中参数先验分布 [[Laplace Distribution]]
+ $P\left(w_{j}\right)$ :-> $\frac{1}{\sqrt{2 a}} e^{\frac{\left|w_{j}\right|}{a}}$
+ $\log P(w)=\log \prod_{j} P\left(w_{j}\right)=\log \prod_{j}\left[\frac{1}{\sqrt{2 a} \sigma} e^{-\frac{w_{j}}{a}}\right]$ :<-> $-\frac{1}{2 a} \sum_{j}\left|w_{j}\right|+C$
id:: 3c341e2e-412f-4ca1-a4cb-d8175fdb21ad

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约159个字)

Log-Normal Distribution

一个随机变量的对数服从 [[正态分布]]，则该随机变量服从对数正态分布。

对于一条路线的 ETA 来说，有一个无人可及的最小时间，然后是少数一些非常快的司机，接下来是普通司机最具代表性的完成时间形成一个高峰，最后是尾部一长串的“掉队者”。

$\ln (Y) \sim N\left(\mu, \sigma^2\right)$

[[概率密度函数]]

$f_{\lg -N}(x ; \mu, \sigma)=\frac{1}{x \sigma \sqrt{2 \pi}} e^{-\frac{(\ln x-\mu)^2}{2 \sigma^2}}$

期望

$E(x)=e^{\mu+\frac{\sigma^2}{2}}$

方差

$D(X)=\left(e^{\sigma^2}-1\right) e^{2 \mu+\sigma^2}$

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约20个字)

Tanh

$f(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$

图像

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约0个字)

Wiener–Khinchin Theorem

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约224个字)

傅里叶变换

任意一个函数表示成诺干个正交函数的线性组合。

时域空间域

x 轴是时间
例子
- 信号
  - 一个物理量在时间上的变换
- 三角函数图

频域变换域

x 轴是频率
y 轴是对应频率下的增幅

时域到频域变换 #card

$F(\omega)=\int_{-\infty}^{+\infty} f(t) \cdot e^{-i \omega t} \mathrm{~d} t$

$F(f)=\int_{-\infty}^{+\infty} f(t) \cdot e^{-i 2 \pi f t} \mathrm{~d} t$

欧拉公式

使用正弦曲线做为基，会考虑整个坐标轴情况

g 函数是指数函数 [[拉普拉斯变换]]

高斯分布做 g 函数的变换 [[Gabor Transform]]

+ s 控制窗口位置

+ $\vec{d}_{n, s}=g(t-s) \cdot e^{i n t}$

$g_a(t-s)=\frac{1}{2 \sqrt{\pi a}} e^{-\frac{(t-s)^2}{4 a}} \times 2$

窗口大小不固定 [[小波变换]]

Mathematics

2024-10-052024-10-05 随手记 1 分钟读完 (大约164个字)

协方差

衡量^^{两个随机变量}^各个维度偏离其均值的程度

协方差值含义
- 正值说明两个变量正相关
- 负值说明两个变量负相关
- 零值说明两个变量相互独立
方差是协方差的一种特殊情况
两个随机变量都是多维的

协方差矩阵：

ij 是第 i 个与第 j 个随机变量的协方差
$\sum _{ij}=cov (X_i,X_j)=E[(X_i-\mu_i)(X_j - \mu_j)^T]$
如果变量是 d 维，那么协方差 $$\sum = d * d$$ 维

[[Ref]]

如何直观地理解「协方差矩阵」？ - 知乎

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约56个字)

方差

有偏估计与[[无偏估计]]

样本方差与整体方差相等时是无偏估计，样本方差分母是 n-1 为了追求无偏估计

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约43个字)

无偏估计

计算总体的均值和方差时，拿到的数据是对总体的采样，因此计算出的方差比总体方差小 $\frac{\sigma^2}{n}$ 。

Mathematics

2024-10-052024-10-05 随手记 3 分钟读完 (大约425个字)

时间序列预测/基本数学概念

自协方差

信号与其经过时间平移的信号之间的[[协方差]]
- 信号与其自身经过一定时间平移之后的相似性
$r(k)=\frac{1}{n} \Sigma_{t=k+1}^n\left(Z_t-\bar{Z}\right)\left(Z_{t-k}-\bar{Z}\right)$

[[自相关]]系数 ACF

$A C F(k)=\Sigma_{t=k+1}^n \frac{\left(Z_t-\bar{Z}\right)\left(Z_{t-k}-\bar{Z}\right)}{\Sigma_{t=1}^n\left(Z_t-\bar{Z}\right)^2}$
衡量信号其自身在不同时间点的相关度
找出重复模式或识别隐含在谐波频率中小时的基频

偏自相关系数 [[PACF]]

自相关衡量想要衡量 z(t) 和 z(t-k) 的相关关系，实际上 z(t) 还会受到 z(t-1) 到 z(t-k-1) 的影响。
PACF 单纯测量 z(t-k) 对 z(t) 的影响
- $P A C F(k)=\frac{E\left(Z_t-E Z_t\right)\left(Z_{t-k}-E Z_{t-k}\right)}{\sqrt{E\left(Z_t-E Z_t\right)^2} \sqrt{E\left(Z_{t-k}-E Z_{t-k}\right)^2}}=\frac{\operatorname{cov}\left[\left(Z_t-\bar{Z}_t\right),\left(Z_{t-k}-Z_{t-k}^{-}\right)\right]}{\left.\sqrt{\left.\operatorname{var}\left(Z_t-\bar{Z}_t\right)\right)} \sqrt{\operatorname{var}\left(Z_{t-k}-Z_{t-k}^{-}\right.}\right)}$
偏相关
- 计算某一个要素对另一个要素的影响或相关程度时，把其他要素的影响视为常数u，即暂时不考虑其他要素的影响，而单独研究那两个要素之间的相互关系的密切程度
PACF 和 ACF 区别
- ACF 一个期望，用整个时间序列的期望
- PACF 两个期望，两个序列用各自序列的期望

Mathematics

2024-10-052024-10-05 随手记几秒读完 (大约25个字)

期望

离散情况下：结果乘以结果概率的总和

连续 $$E(x) = \int xf(x)dx$$

Mathematics

2024-10-052025-03-11 随手记 1 分钟读完 (大约209个字)

自相关

缩写 :-> ACF

# https://github.com/Arturus/kaggle-web-traffic/blob/master/make_features.py#L88
def single_autocorr(series, lag):
  """
  Autocorrelation for single data series
  :param series: traffic series
  :param lag: lag, days
  :return:
  """
  s1 = series[lag:]
  s2 = series[:-lag]
  ms1 = np.mean(s1)
  ms2 = np.mean(s2)
  ds1 = s1 - ms1
  ds2 = s2 - ms2
  divider = np.sqrt(np.sum(ds1 * ds1)) * np.sqrt(np.sum(ds2 * ds2))
  return np.sum(ds1 * ds2) / divider if divider != 0 else 0

R_{k}=\frac{\sum_{i=1}^{n-k}\left(X_{i}-\bar{X}\right)\left(X_{i+k}-\bar{X}\right)}{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}

取值范围 -1 到 1，越大越相关
比如一个序列长度是 L，如果具有周期性且周期性为 t，那么子序列 0:L-1-t 和子序列 t:L-1 的相关性是最大的

Ref

Mathematics

See

Ref

Ref

分类

链接

最新文章

标签