4/3/26About 2 min
矩阵微积分
根据提供的课程讲义,课程并没有单独列出一份通用的“矩阵微积分速查表”,而是通过推导线性回归(Linear Regression)**和**L2 正则化的梯度,展示了几个核心的求导规则。
以下是讲义中在推导闭式解(Closed-form solution)和梯度下降时所涉及的主要矩阵微积分规则:
梯度的线性性质 (Linearity of the Gradient)
这是最基础的规则。讲义明确指出,梯度的运算具有线性性质。这意味着一个求和式的梯度等于各项梯度的和。
- 规则:
- 讲义应用:在计算总损失函数的梯度时,可以将其拆分为“均方误差(MSE)项”和“正则化项”分别求导,然后再相加,。
二次型的求导规则 (Gradient of Quadratic Forms)
这是推导线性回归正规方程(Normal Equation)时最重要的规则。
规则:对于向量 和对称矩阵 (在回归中 ),二次型函数 的梯度为:
讲义应用:
- 讲义指出均方误差损失函数展开后是一个关于 的二次函数(Quadratic function),其主导项系数为 。
- 在推导梯度时, 这一项的导数计算结果被显式展示为 。
线性项的求导规则 (Gradient of Linear Terms)
规则:对于向量 和常数向量 (在回归中 通常与 相关),线性函数 或 的梯度为:
讲义应用:
- 在损失函数展开式中,包含交叉项 (也可以写成 )。
- 讲义中这一项求导后的结果展示为 。这说明 的系数向量 被保留了下来。
L2 正则项的求导规则 (Gradient of L2 Norm)
规则:对于 L2 正则化项,即向量模的平方 ,其梯度为:
讲义应用:
- 在介绍 L2 正则化(Ridge Regression)时,损失函数增加了 。
- 讲义展示其梯度为 ,。
总结:讲义中的推导全过程
结合上述规则,讲义展示了目标函数 的完整求导过程:
- 展开:
- 求导:
- 常数项 导数为 0。
- 线性项 导数为 (应用规则 3)。
- 二次项 导数为 (应用规则 2)。
- 结果:。
