Multimodal

David Liu5/10/26About 2 min

Multimodal

多模态这部分关注的是: 文本模型如何接入视觉、音频甚至视频，让模型既能“看懂”，也能“说出来”。

Mental Model

一个典型多模态系统通常由三部分组成:

Encoder: 把图像、音频等模态编码成模型可消费的表征。
Alignment / Fusion: 让不同模态落到同一个语义空间，或者在中间层直接交互。
LLM / Decoder: 用语言模型或生成模型完成理解、生成与推理。

Topic Map

Vision Encoder

多模态系统的视觉入口，决定图像信息以什么形式进入语言模型。

ViT and Visual Pretraining

从 ViT 到视觉预训练，是理解 DINO / MAE / CLIP 的共同底座。

Visual Language Models

Flamingo、BLIP、LLaVA、Qwen-VL 这类模型怎样把视觉接到 LLM 上。

Diffusion

图像生成和更广义生成模型在多模态中的角色。

Speech and audio

Audio

语音识别、语音生成和音频 foundation model 的入口。

Project Notes

记录多模态项目实践中更偏系统设计与落地的问题。

Reading Order

先看视觉底座: ViT -> DINO -> MAE
再看跨模态对齐: CLIP / SigLIP
然后进入 VLM: Flamingo, BLIP, LLaVA, Qwen-VL
最后再看生成式扩展: SAM, Diffusion, Audio

Core Patterns

Dual-Encoder: 图像和文本各走一个编码器，再在共同空间里做匹配。
Fusion: 在中间层让多模态直接交互。
Encoder-Decoder: 更偏经典 seq2seq 或生成式架构。
Adapted LLM: 以大语言模型为核心，把视觉或音频编码结果接进来。

Model Index

Backbones: ViT, Vision Encoder, DINO, MAE
Contrastive alignment: CLIP, SigLIP
VLMs: Flamingo, BLIP, LLaVA, Qwen-VL
Segmentation and adaptation: SAM, 微调
Generative branch: Diffusion