Vision Encoder

David Liu5/10/26About 3 min

Vision Encoder

视觉编码器（vision Encoder）是多模态大模型（如 LLaVA、Flamingo、BLIP-2 等）中的核心组件，负责将图像或视频等视觉输入转换为语义丰富的向量表示（即视觉特征），以便与语言模型协同工作。其性能直接决定了多模态系统对视觉内容的理解能力。

作用

在典型的多模态架构中：

[Image] 
   ↓
[Visual Encoder] → 输出视觉 token 序列（如 256×d）
   ↓
[Projection / Adapter] → 映射到语言模型嵌入空间
   ↓
[Large Language Model] → 联合推理并生成文本

视觉编码器的任务是：

分类

1. CLIP (Contrastive Language–Image Pretraining)

✅ 特点：

📌 变体：

模型	输入分辨率	输出维度	特点
ViT-B/32	224×224	512	基础版，速度快
ViT-B/16	224×224	512	更细粒度，常用
ViT-L/14	224×224	768	LLaVA v1/v1.5 默认使用
ViT-H/14	224×224	1024	更大更强，计算开销高

💡 为什么 LLaVA 早期用 CLIP？
因为 CLIP 的视觉特征天然与语言对齐，便于后续与 LLM 融合。

⚠️ 局限：

2. SigLIP (Sigmoid Loss for Language Image Pre-Training)

✅ 特点：

📌 变体：

模型	分辨率	参数量	性能优势
SigLIP So400m ViT-SO/14	384×384	~400M	LLaVA-NeXT 默认使用
SigLIP B/16	224×224	~86M	轻量高效

🔥 优势：

✅ LLaVA-NeXT、LLaVA-OneVision 均采用 SigLIP，因其更强的泛化能力。

3. DINOv2 (Self-supervised Vision Transformer)

✅ 特点：

📌 优势：

🔄 应用：

4. EVA / EVA-CLIP

✅ 特点：

📌 模型：

🌐 中文社区广泛使用，适合中文多模态任务。

5. InternViT (OpenGVLab)

✅ 特点：

📌 优势：

演进

技术方向	早期方案	当前趋势
训练目标	对比学习（CLIP）	Sigmoid loss（SigLIP）、自监督（DINOv2）
分辨率支持	固定 224×224	动态/高分辨率（384~1024）
特征密度	全局池化 or 固定 token 数	可变 token、HiRes Linear、Pooling+MLP
开源程度	部分开源	全面开源（权重、代码、训练数据）

选择