视觉基础模型
骨干网络:ViT、Moco v3
自监督基础模型:DINO(对比式)、MAE(生成式)
分割基础模型:SAM
CV很多方法都是源于NLP的思路
图像 Encoder: DINO, MAE
图像文本Pair Encoder:CLIP