Multimodal
5/10/26About 2 min
Multimodal
多模态这部分关注的是: 文本模型如何接入视觉、音频甚至视频,让模型既能“看懂”,也能“说出来”。
Mental Model
一个典型多模态系统通常由三部分组成:
Encoder: 把图像、音频等模态编码成模型可消费的表征。Alignment / Fusion: 让不同模态落到同一个语义空间,或者在中间层直接交互。LLM / Decoder: 用语言模型或生成模型完成理解、生成与推理。
Topic Map
Backbone
Vision Encoder
多模态系统的视觉入口,决定图像信息以什么形式进入语言模型。
RepresentationViT and Visual Pretraining
从 ViT 到视觉预训练,是理解 DINO / MAE / CLIP 的共同底座。
Adapted LLMVisual Language Models
Flamingo、BLIP、LLaVA、Qwen-VL 这类模型怎样把视觉接到 LLM 上。
GenerationDiffusion
图像生成和更广义生成模型在多模态中的角色。
Speech and audioAudio
语音识别、语音生成和音频 foundation model 的入口。
BuildingProject Notes
记录多模态项目实践中更偏系统设计与落地的问题。
Reading Order
- 先看视觉底座: ViT -> DINO -> MAE
- 再看跨模态对齐: CLIP / SigLIP
- 然后进入 VLM: Flamingo, BLIP, LLaVA, Qwen-VL
- 最后再看生成式扩展: SAM, Diffusion, Audio
Core Patterns
Dual-Encoder: 图像和文本各走一个编码器,再在共同空间里做匹配。Fusion: 在中间层让多模态直接交互。Encoder-Decoder: 更偏经典 seq2seq 或生成式架构。Adapted LLM: 以大语言模型为核心,把视觉或音频编码结果接进来。
