August 31, 2025About 1 min
召回通道
- ItemCF召回(不适用)
- 双塔模型(改造后适用)
- 类目、关键词召回(适用)
- 聚类召回(适用)
- Look-Alike召回(适用)
ID Embedding
改进方案1:新笔记使用 default embeddingo
- 物品塔做ID embedding 时,让所有新笔记共享一个ID,而不是用自己真正的ID。
- Default embedding:共享的 ID 对应的 embedding向量。
- 到下次模型训练的时候,新笔记才有自己的ID embedding 向量。
改进方案2:利用相似笔记embedding向量。
- 查找topk内容最相似的高曝笔记。
- 把k个高曝笔记的embedding向量取平均,作为新笔记的embedding
多个向量召回池
- 多个召回池,让新笔记有更多曝光机会。
- 1小时新笔记,
- 6小时新笔记,
- 24小时新笔记
- 30天笔记
- 共享同一个双塔模型,那么多个召回池不增加训练的代价。
基于类目的召回
- 系统维护类目索引:
- 类目→笔记列表(按时间倒排)
- 用类目索引做召回:
- 用户画像→类目→笔记列表
- 取回笔记列表上前k篇笔记(即最新的k篇)
基于关键词的召回
- 系统维护关键词索引:
- 关键词→笔记列表(按时间倒排)
- 根据用户画像上的关键词做召回。
缺点
- 缺点1:只对刚刚发布的新笔记有效。
- 取回某类目/关键词下最新的k篇笔记
- 发布几小时之后,就再没有机会被召回
- 缺点2:弱个性化,不够精准。