Generative Models

David Liu5/10/26About 2 min

Generative Models

这里主要整理大模型时代最常见的一条主线: 预训练模型学到通用能力，经过微调和对齐变得可用，再通过推理系统、多模态桥接和应用层封装进入真实产品。

System Map

Text Models

语言模型、decoder-only 思路，以及从 token prediction 到能力涌现的主线。

Fine-tuning

SFT、FFT、PEFT，关注下游任务适配与训练成本。

Alignment

从 RLHF 到 RLVR，回答“模型为什么更像人类想要的样子”。

Inference

Prefill / Decode、KV Cache、系统瓶颈与线上吞吐优化。

Multimodal

视觉编码器、VLM、扩散和音频，把文本模型扩展到更多模态。

Application

RAG、Agent、工具调用与 prompt 设计，关注能力如何落地。

Suggested Reading Order

Text -> Fine-tuning -> Alignment: 先理解模型本体，再看如何适配和对齐。
Inference: 明白一个可用的大模型系统为什么瓶颈常出在 serving 而不是训练。
Multimodal: 在语言模型基础上扩展到图像、视频、音频。
Application: 最后看 RAG / Agent 这类产品形态。

Core Questions

模型是怎么学会生成的: 自回归、扩散、masked prediction 等范式有什么差别？
模型怎么变得“能用”: SFT、instruction tuning、偏好学习各自解决什么问题？
模型怎么跑得动: KV Cache、量化、系统优化的核心矛盾是什么？
模型怎么连接现实世界: 多模态编码器、工具调用、RAG 分别承担什么角色？

High-Value Links