Rerank
August 31, 2025About 1 min
Rerank
做多样性抽样(比如MMR、DPP),从几百篇中选出几十篇。
用规则打散相似笔记。
插入广告、运营推广内容,根据生态要求调整排序。
相似性的度量
- 基于物品属性标签。
- 类目、品牌、关键词…
- 基于物品向量表征。
- ·用召回的双塔模型学到的物品向量(不好)。
- ·基于内容的向量表征(好)。(CV, NLP模型提取特征)
基于物品属性标签
- 物品属性标签:类目、品牌、关键词…
- 根据一级类目、二级类目、品牌计算相似度
- ·物品i:美妆、彩妆、香奈儿
- ·物品j:美妆、香水、香奈儿。
- ·相似度:sim1(i,j)=1’sim2(i,j)=0,sim3(i,j)=1
基于图文内容的物品向量表征
- CLIP[1]是当前公认最有效的预训练方法。
- 思想:对于图片一文本二元组’预测图文是否匹配·
- 优势:无需人工标注。小红书的笔记天然包含图片+ 文字,大部分笔记图文相关
参考文献:Radford et al.Learning transferable visual models from natural language supervision.In ICML,2021.
- 一个batch内有m对正样本。
- 一张图片和m一1条文本组成负样本。
- 这个batch内一共有m(m-1)对负样本。