【每月分享】 202005 Newsletter
Newsletter
从去年开始给我一种 RSS 复兴的感觉,这个月尝试使用 Newsletter。对于创作者来说,RSS 不仅无法统计数据,也很难开展会员模式。Newsletter 通过邮箱订阅的的手段,完美解决这两个问题,国外开始有一站式的解决方案,可能几个月之后也会在国内火起来。推荐自己订阅的一些邮件组给大家。
- PRODUCT THINKING · 产品沉思录精选:第一个付费订阅的邮件周刊,目前的价格是 199 元/年。根据少楠自己写的介绍,内容包括但不限于产品设计,服务设计,数据分析,互联网技术,经济学,心理学,社会学,决策学,自然科学,城市规划,零售,团队管理等内容。每周会推荐几篇网上比较好的文章,偶尔也翻译一些英语文章。挑选几篇我觉得不错的公开内容:
- Λ-Reading 阅读相关分享,作者的读书笔记网站也值得一看 — Read the Word,Read the World.。推荐内容:
- 路径依赖和困扰计算机的简单问题 - Λ-Reading
- 号外:知识管理工具 - Λ-Reading 中文为数不多关于 TiddlyWiki 的介绍。
- 透明盒子计划 深度阅读分享,盒子对应 Zettelkasten。
- Superorganizers 对国外人士的采访,有关于效率、数字生活等。目前只看他的免费内容……
- How to Make Yourself Into a Learning Machine - Superorganizers:对一名高中辍学的小哥的采访,介绍来一些自我教育的方法。
阅读
- How to take smart notes,方法及工具 - 少数派:Zettelkasten 这种做笔记方法慢慢开始要在国内流行起来,自己已经关注差不多超过半年的时间,接下来也在计划写一篇相关的博客文章。
- Human Programming Interface 简单看来一下,利用 py 包和 Emacs 管理所有相关的个人数据,挺疯狂的。
- 上古论坛差不多十年前的帖子, 我的千书阅读计划 - 意欲蔓延 - Hi!PDA Hi!PDA fatdragoncat 通过阅读成为一名自由职业者。帖子中介绍大量篇幅介绍如何高效阅读、锻炼、自我管理等等。在印象笔记中找到几年前自己写的笔记,现在重新整理一下相关的内容,并分享给大家。
- AndyMatuschak - Making sense of Design Unbound vs. prior theories of collaborative design work - Twitch [[Evergreen notes]]的创始人公开展示写作的过程。通过这个视频可以发现他使用的笔记软件是 [[Bear]],看起来 Reference 和 Backlink 都是手动输入的,不过这样也符合 [[Zettelkasten]] 的原则。只是 [[Roam Research]] 这样的软件让我们变懒。
- 莫言获得诺贝尔文学奖发表的演讲中有一个故事:到了荒滩上,我把牛羊放开,让它们自己吃草。蓝天如海,草地一望无际,周围看不到一个人影,没有人的声音,只有鸟儿在天上鸣叫。我感到很孤独,很寂寞,心里空空荡荡。有时候,我躺在草地上,望着天上懒洋洋地飘动着的白云,脑海里便浮现出许多莫名其妙的幻象。我们那地方流传着许多狐狸变成美女的故事,我幻想着能有一个狐狸变成美女与我来作伴放牛,但她始终没有出现。但有一次,一只火红色的狐狸从我面前的草丛中跳出来时,我被吓得一屁股蹲在地上。狐狸跑没了踪影,我还在那里颤抖。有时候我会蹲在牛的身旁,看着湛蓝的牛眼和牛眼中的我的倒影。有时候我会模仿着鸟儿的叫声试图与天上的鸟儿对话,有时候我会对一棵树诉说心声。但鸟儿不理我,树也不理我。许多年后,当我成为一个小说家,当年的许多幻想,都被我写进了小说。很多人夸我想象力丰富,有一些文学爱好者,希望我能告诉他们培养想象力的秘诀,对此,我只能报以苦笑。
机器学习
- 谈谈推荐系统中的用户行为序列建模 - 知乎 一篇关于用户行为序列建模的文章,基本上常用的方法都介绍了。
- 和上一次 “从谷歌到阿里,谈谈工业界推荐系统多目标预估的两种范式 - 知乎[[机器学习实践]][[MTL]]” 属于同一个作者
- 目前主流推荐系统框架 [[Deep Neural Networks for YouTube Recommendations]] 中的 Matching 和 Ranking。另外可能还有规则模块。
- pooling-based architecture 范式,用户行为是无序集合,使用 sum/max pooling 或各种 attention
- [[Deep Neural Networks for YouTube Recommendations]] 中将用户观看过的视频序列取到 embedding 后,做一个 mean pooling 作为用户历史兴趣的表达
- Ranking 阶段:[[DIN]] target item 和行为序列的 item 做一个 attention,得到一个 weight,然后加权求和。
- 结合 [[Transformer]] 做 self-attention 并行的建模长序列依赖,除去用户行为序列中的噪声:[[Behavior Sequence Transformer for E-commerce Recommendation in Alibaba]]
- sequential-modeling architecture 范式,用户行为当成一个具有时间属性的序列,使用 RNN、LSTM、GRU 等
- [[Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks]] Property Gated LSTM
- 推荐中的序列化建模:Session-based neural recommendation - 知乎
- 上面两种方法都是将用户行为经过 pooling/attention/rnn 的处理,聚合成用户行为序列的 embedding,再和其他的特征 concat 在一起,经过 mlp 后接 sigmod/softmax
- 抽取聚类出用户多峰兴趣,Capsule
- 阿里 [[MIND]] 胶囊网络
- 辅助损失函数
- [[DIEN]] 兴趣提取和兴趣演化,以最后一个 hidden state 做为用户兴趣的表达。兴趣提取模块,使用隐状态和下一件商品预测做二分类。不加入辅助loss,GRU 的隐变量完全受限于最终点击的 label,加入后能约束 GRU 每个隐状态表示其本身的兴趣。
- 提升用户序列长度,可以带来可观的 auc 提升。[[MIMN]]
- Applying Deep Learning To Airbnb Search:一篇关于从 GBDT 模型迁移到深度模型的工业实践记录 paper。对于我这种没有经历过这种技术迭代的人来说,工业级的深度模型上线比想象中的要困难。作者们针对自己遇到的比如 listing embedding 训练不充分、如何判断 feature 的重要性等问题设计实验去验证以及给出解释。严谨的精神值得吾辈学习。
其他
出于对 Roam Research 开发者的不放心,已将全部文档迁移到 Obsidian。目前还在探索新的工作流,5 月分享不可避免产生拖延。另外还在寻找一种建立 Digital Garden 的方法。
【每月分享】 202005 Newsletter