机器学习模型设计五要素

{x,y}

  • 根据业务特点提取数据

f(x)

  • 参数量

    • 通过[[VC维]]衡量模型复杂度
  • 结构,都有自己的 [[inductive bias]]

    • [[Linear Regression]] 学习线性特征,特征工程提高非线性能力

    • [[MLR]] 每个分片拥有自己的参数

    • [[FM]] 自动做特征交叉

objective

  • 产品的 KPI 转换成模型的损失函数

  • P(model|data) = P(data|model) * P(model)/P(data) —> log(d|m) + log(m)

[[Optimization]]

  • 达尔文式

    • 启发式算法,仿达尔文进化论,通过适应度函数进行“物竞天择,适者生存”式优化

      • 比较有代表性的:遗传算法GA,粒子群算法PSO,蚁群算法AA;

      • 适合解决复杂,指数规模,高维度,大空间等特征问题,如物流路经问题;问题是比较收敛慢,工业界很少用。

  • 拉马克式

    • 拉马克进化论,获得性遗传,直接修改基因(w);

    • 比较有代表性的分两类:

      • sgd variants(sgd/Nesterov/Adagrad/RMSprop/Adam/…)

      • newton variants(newton/lbfgs/…)

evaluation

  • 一个好的模型需要覆盖的层面

    • 算法层面:准确率,覆盖率,auc,logloss…

    • 公司层面:revenue,ctr,cvr…

    • 用户层面:用户体验,满意度,惊喜度…

模型调优思路

  • 模型效果 ∝ 数据信息量 x 算法信息利用率

    • 扩充“信息量”,用户画像和物品画像要做好,把图片/文本这类不好量化处理的数据利用起来;

    • 改进f(x)提高“信息利用率”,挖到之前挖不到的规律;

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论