@知识资产:从一张卡片开始积累

知识资产

知识管理

[[知识管理的误区]]:囤积癖、墙头草、工具控、输出怪

本书分享记笔记的三种方法

卡片笔记的四个特点

[[如何复盘]] 《陈云文选》关于如何才能少犯错误的主要方法可以概括为三个: {{c1 交换}}、 {{c2 比较}}、 {{c3 反复}}

  • 交换 #card
    • 交换正反两面意见,让自己的视角更全面。
    • 值得注意的是,收集反对信息后,如果这些信息正确就改进,如果错误就驳倒。
    • 只有这样,一个人的认识才能更接近客观事实。
  • 交换是为了 {{c1 更全面地认识事物}},比较则是为了更好地 {{c1 判断事物的性质}},用来了解事物的发展程度、要害和本质。
  • 重复上面两步,既是 {{c1 认识}}的过程,也是 {{c1 实践}}的过程。在此过程中,坚持 {{c2 正确的}},改进 {{c2 错误的}}。

高亮后如何自我提问,增加笔记的摩擦力

如何记录情绪 [[Life Log]]

[[记录自己的实战经验]]

精练笔记

  • Light 对邓小平时代的精练笔记
    • 什么是“实事求是”?#card
      • 摆脱意识形态的束缚;
      • 承认令人不快的事实;
      • 实践是检验真理的唯一标准。

[[Q - 笔记需要分类吗?]] 分类是让自己更容易找到信息,适合自己的分类是从笔记中生长出来的。

基于[[PARA]]设计出[[IARA]],把笔记分为个人的领域、兴趣、项目、归档四大部分。

怎样更好的回顾记录?

  • 每次记录新的笔记时,重新熟悉相关的笔记,然后再记录新的内容。#card
    • 望岳投资南添的例子,假设他要记一条有关电动车领域的笔记,正式记录前他会点开对应的标签,翻看此前关于这个领域的笔记,思考即将记录的内容和之前记录的内容是否有冲突或关联。这样回顾的好处是,他不但可以加深对相关笔记的印象,还能快速建立起笔记之间的连接。
  • 同步思考一些问题 #card
    • 这条笔记和我最近遇到的什么问题有关?#card
      • 我早期读企业家谢家华的自传《三双鞋》,做了很多笔记。某次我回顾到下面这条关于“客服”问题的笔记,同时也在想,这跟我最近遇到的什么问题有关?
    • 关于这条笔记,我可以补充什么新实践或新思考?#card
      • 下面这条关于时间管理的笔记,是我某次听播客时记录的。之前我做事总是容易失焦,导致重要的事情得不到及时解决,所以后来我干脆买了一堆便笺贴在墙上,确保自己一到办公室就能看到近期重点项目的重要节点。回顾这条笔记时,我把自己的这些实战经验补充在了后面,促进理解,加强记忆。
    • 这条笔记和其他哪条笔记有关系?

待整理


@互联网大厂推荐算法实战

想法

  • 作者知乎上面的文章合理,值的一看,用心的是书中所有的图都是统一的风格绘制。

阅读记录


@A Consumer Compensation System in Ride-hailing Service

[[Attachments]]

代驾和货运的补贴系统

  • 价格弹性建模 ((65b1f955-417a-4457-95ef-8d223ce14b4c))
  • 预算分配 ((65b1f965-af6d-4b32-b1f0-96d4151f5f01))

系统目标:在预算范围内,通过补贴最大化平台收入。

  • ((65b1fbc2-5d19-4684-b5c7-b2424fecf57a))

难点

  • 如何用历史数据建模用户弹性 ((65b1fd34-d738-4f68-b90b-60efb3a9aca9))
  • 个保法下公平原则(不同用户相同 odt 补贴相同) ((65b1fd3d-cae0-4efa-a2d2-08d4b8919709))
  • 如何建模线上随机的发单请求 ((65b1fd6a-db88-47e3-808d-a686f6586589))

((65b1fe34-8525-479e-abd4-155b544d3fa4))

  • 常规训练 uplift 模型需要大量随机补贴下的响应数据(成本高),本文方法使用大量线上观测数据(有偏,受线上策略影响)和少量随机补贴数据训练模型。
  • DNN + GBDT:解决 ((65b2028e-75cb-4f40-8e06-22a2166cbfba))
    • 超过 90% 特征是 dense numerical feature ,需要用 GBDT建模,但是 GBDT 不好 fine-tuning 新数据以及处理稀疏特征。
    • 训练 s-learner model
      • ((65b2024f-eaa7-462c-bc11-cae352aabdfb))
      • 两个 XGB 模型分别用观测数据 observational data 和随机数据 RCT data 训练,目标是二分类(用户是否下单)。
      • 数据过两个 XGB 模型得到叶子信息,再过 embedding 层,concat 两个 embedding 过 inner 层。
        • 先用 observational data 训练整个网络 ((65b20626-d8aa-4430-83b7-7ba54215f50d))
        • RCT data 用另外一个输出层训练 ((65b20652-6366-414d-ab84-74a0d87bfed7))
        • fine-tuning 时使用 early stopping

((65b206dd-3a99-40c4-a661-54965bfd83bc))

  • 订单聚类成 OD 网格
    • 网格内历史订单平均弹性作为网格弹性 ((65b20798-d159-405c-a66e-54723386a698))
  • ((65b20804-56df-425f-a48e-5def2d17e48b)) 建模成最优化问题求解分配方案

线上系统:离线生成补贴词典供线上使用

  • ((65b20b39-aa4c-488c-8507-ec4b07edf866))

离线实验

  • Uplift 模型
    • 特征
      • ((65b20c51-20cd-44fe-b015-3ca64e225bf4))
    • 模型细节
      • ob data xgb,35 棵树,1120 个叶子节点
      • rct xgb,51 棵树,1314 叶子节点
      • embedding size 8
      • ((65b20ce2-4edc-46f4-8e7d-a1c3ee5085be))
    • 结果分析
      • T-XGB+DNN AUUC 效果比 S-XGB+DNN 效果好,说明需要两棵树去提取特征?
        • S-XGB+DNN:a single GBDT distiller DNN
        • T-XGB+DNN:two-distiller GBDT distiller DNN
      • ((65b249cb-8907-4f44-ba1d-f8ee50052f8d))
  • 优化结果评估
    • 假设 uplift 模型结果是真值,评估不同分配策略的影响。
    • ((65b253c2-2d6f-4184-8011-b8fc5c18bb53)) 不对订单聚类,考虑用户特征。
    • Open Loop 用前 14 天数据预测后 7 天
    • 新系统补贴率低但是更高利润 ((65b25475-6a4d-4878-9e0b-d3f2588ed8ef))
      image.png

一些问题?

  • 为什么不是常规构建 uplift 模型的方法(实验组 + 空白对照组)?
  • T-XGB 和 S-XGB 具体怎么训练?
  • 为什么 rct 树的数量比 ob 树多?从样本角度 ob 树样本更多
  • uplift 没有给纯 xgb 的