Retrieval
12/15/25About 1 min
Retrieval
召回通道
- ItemCF 召回(不适用)
- 双塔模型(改造后适用)
- 类目、关键词召回(适用)
- 聚类召回(适用)
- Look-Alike 召回(适用)
ID Embedding
改进方案 1:新笔记使用 default embeddingo
- 物品塔做 ID embedding 时,让所有新笔记共享一个 ID,而不是用自己真正的 ID。
- Default embedding:共享的 ID 对应的 embedding 向量。
- 到下次模型训练的时候,新笔记才有自己的 ID embedding 向量。
改进方案 2:利用相似笔记 embedding 向量。
- 查找 topk 内容最相似的高曝笔记。
- 把 k 个高曝笔记的 embedding 向量取平均,作为新笔记的 embedding
多个向量召回池
- 多个召回池,让新笔记有更多曝光机会。
- 1 小时新笔记,
- 6 小时新笔记,
- 24 小时新笔记
- 30 天笔记
- 共享同一个双塔模型,那么多个召回池不增加训练的代价。
基于类目的召回
- 系统维护类目索引:
- 类目 → 笔记列表(按时间倒排)
- 用类目索引做召回:
- 用户画像 → 类目 → 笔记列表
- 取回笔记列表上前 k 篇笔记(即最新的 k 篇)
基于关键词的召回
- 系统维护关键词索引:
- 关键词 → 笔记列表(按时间倒排)
- 根据用户画像上的关键词做召回。
缺点
- 缺点 1:只对刚刚发布的新笔记有效。
- 取回某类目/关键词下最新的 k 篇笔记
- 发布几小时之后,就再没有机会被召回
- 缺点 2:弱个性化,不够精准。
