Logistic Regression
逻辑回归,能融合多种特征。
是 link function
线性分类
-
硬分类 :<-> 直接输出输出对应的分类
-
线性判别分析[[Fisher]]
-
[[感知机]]
-
-
软分类 :<-> 产生不同类别的概率
-
概率生成式(连续),类别先验 [[Gaussian Discriminant Analysis]] GDA [[Naive Bayes Classifier]]
- 的大小关系
-
概率判别式(离散) Logisitic Regression
- 直接对 $$P(Y|X)$$ 建模
-
逻辑回归
-
P(Y|X, \theta)=p_1^yp_0^{1-y}$$ 服从[\[\[Bernoulli Distribution\]\]](/post/logseq/Bernoulli%20Distribution.html) + 求 MLE 转化成 Cross Entropy
-
取 $$z=\ln \frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2}$$
-
激活函数 [[sigmoid]]
-
阶跃函数不连续,sigmoid函数光滑,处处可导
-
数据取值范围从正无穷压缩到 0-1
-
-
两类联合概率比值的对数
-
odds 几率代表事件发生和不发生的比值 $$\frac{p}{1-p}$$
-
对数几率的线性回归
-
-
-
-
MLE $$w=\mathop{argmax} \sum(y_i \log p_1 + (1-y_i)\log p_0)=\mathop{argmax} \sum(y_i \log f(x,w) + (1-y_i)\log (1-f(x,w))$$
- 等价于 Cross Entropy
-
多分类
-
softmax regression
-
参数冗余
-
-
多标签:每个标签设计一个分类器
在推荐系统中,LR 当成是一个分类问题处理,通过预测正样本的概率对物品进行排序。将推荐问题转化为预估问题。另外也能使用 [[Pair Wise]]
优点
-
数学含义:用户是否点击广告是一个经典的掷偏心硬币问题,显然符合伯努利分布
-
可解释性强
-
工程化较为简单
[[面试]]
-
LR归一化问题
- 什么情况可以不归一化 :-> 最小二乘法
- 什么情况必须归一化 :-> 梯度下降算法
- [[Wide&Deep]]
-
提到LR损失函数要能知道交叉熵,为什么是它,以它为损失函数在优化的是一个什么东西,知道它和KL散度以及相对熵的关系
-
提到LR的求解方法,比如SGD,知道SGD和BGD的区别,知道不同的GD方法有什么区别和联系,二阶优化算法知道什么,对比offline learning和online learning的区别
-
提到调参,知道模型不同超参数的含义,以及给定一个特定情况,大概要调整哪些参数,怎么调整
-
提到LR的正则,知道l1l2的原理,几何解释和概率解释
-
LR的分布式实现逻辑是怎么样的,数据并行和模型并行的区别,P-S架构大概是怎么一回事
-
LR作为一个线性模型,如何拟合非线性情况?
- 特征侧比如离散化,交叉组合,模型比如引入kernel,又可以推广到FM等model上
-
LR 如何解决低维不可分
- 通过核函数将特征从低维空间转换到高维空间,高维空间中线性可分的几率会变高
Logistic Regression
https://blog.xiang578.com/post/logseq/Logistic Regression.html