梯度 = 在某一点,函数“增长最快的方向”,以及这个最快增长的“速度”
想象你在一座山上:
地面高度 = 函数值
站的位置 = 自变量取值
朝不同方向走,高度上升/下降速度不同
梯度指向爬得最快的方向
梯度的长度表示“爬得有多快”
对一元函数
\[f(x)\]导数:
\[f'(x)\]含义:
正数:向右走,函数上升
负数:向右走,函数下降
绝对值越大:变化越快
一元函数的导数,就是梯度的“低维版本”
考虑二元函数:
\[f(x, y)\]你有两个方向可以走:
$x$ 方向
$y$ 方向
于是定义:
\[\frac{\partial f}{\partial x}, \quad \frac{\partial f}{\partial y}\]它们分别表示:
只在 $x$ 方向微小移动时,函数怎么变
只在 $y$ 方向微小移动时,函数怎么变
对函数
\[f(x_1, x_2, \dots, x_n)\]梯度是一个向量:
\[\nabla f = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]也常写作:
\[\mathrm{grad}, f\]偏导:
\[\frac{\partial f}{\partial x} = 2x, \quad \frac{\partial f}{\partial y} = 2y\]梯度:
\[\nabla f = (2x, 2y)\]梯度向量:
垂直于等值线
指向函数值增大最快的方向
例如:
\[x^2 + y^2 = c\]是一个圆
在圆上任一点:
这也是为什么:
梯度 ⟂ 等高线(等值面)
表示:
山越陡,梯度越大 山顶/谷底,梯度 = $0$
沿单位方向向量 $\mathbf{u}$ 的变化率:
\[D_{\mathbf{u}} f = \nabla f \cdot \mathbf{u}\]点积!
| 最大方向导数 = $ | \nabla f | $ |
梯度 = 所有方向变化率的“总信息”
梯度:
\[\nabla f = (3, 4)\]含义:
函数在任何点变化率都一样
增长最快方向固定
增长最快速度 = $\sqrt{3^2 + 4^2} = 5$
在点 (1,2):
\[\nabla f(1,2) = (4,1)\]说明:
意味着:
所有方向的一阶变化率都为 $0$
可能是:
极大值
极小值
鞍点
这就是多元函数极值的必要条件
为了最小化函数 $L(\theta)$:
\[\theta \leftarrow \theta - \eta \nabla L(\theta)\]解释:
梯度指向“上升最快”
取负号 = “下降最快”