Vision Transformer

David Liu5/10/26About 1 min

Model	Layers	Hidden size D	MLP size	Heads	Params
ViT-Base	12	768	3072	12	86M
ViT-Large	24	1024	4096	16	307M
ViT-Huge	32	1280	5120	16	632M

Table 1: Details of Vision Transformer model variants.

ViT-L/16: ViT-Large with 16 * 16 patch size

patch size越小, 序列越长, 计算代价越大。

图像转化为 Embedding 序列两种实现方式

训练图片大小为224224, patch大小为1616, patch数量为14*14。
Transformer里的特征维度 (Hidden_Size) 为1024.

线性映射：

将原始图片拆分为多个patch, 对于每个patch, shape为 (16,16, 3) , 展开为一个长度为768的一维向量, 然后通过一个共享的 (768, 1024) 的线性层进行编码。

卷积操作：

直接对原始图片, 定义1024个卷积核, 每个卷积核大小为patch大小 (16,16) , 步长也为16, padding为valid。

这两个操作是完全等价的。

NaViT

Native Resolution ViT