Visual Language Model

David LiuMay 28, 2025Less than 1 minute

Visual Language Model

视觉基础模型

骨干网络：ViT、Moco v3

自监督基础模型：DINO(对比式)、MAE(生成式)

分割基础模型：SAM

CLIP

CV很多方法都是源于NLP的思路

图像 Encoder： DINO, MAE

图像文本Pair Encoder：CLIP