Language Model

David Liu4/3/26About 1 min

给定文本序列 $x_1,\dots,x_T$ , 语言模型的目标是估计联合概率 $p(x_1,\dots, x_T) $
应用
- 预训练模型 (eg. BERT, GPT-3)
- 生成本文, 给定前面几个词, 不断的使用 $x_t \sim p(x_t|x_1\dots,x_{t-t})$ 生成后续文本
- 判断多个序列中哪个更常见, e.g. “to recognize speech？vs “to wreck a nice beach"

N 元语法

当序列很长时, 因为文本量不够大, 很可能 $n(x_1,\dots, x_T) \le1$

使用马尔科夫假设可以缓解这个问题：

马尔科夫假设：假设当前当前数据只跟 t 个过去数据点相关

衡量一个语言模型的好坏可以用平均交叉熵
$\pi=\frac{1}{n}\sum_{i=1}^n-\log p(x_t|x_{t-1})$
- $p$ 是语言模型的预测概率, $x_t$ 是真实词
历史原因 NLP 使用困惑度 $\exp(\pi)$ 来衡量,
是平均每次可能选项
- 1表示完美, 无穷大是最差情况

语言模型本质上是 n 次分类问题