Gradient

一、最直观的理解

梯度 = 在某一点,函数“增长最快的方向”,以及这个最快增长的“速度”

想象你在一座山上:

梯度指向爬得最快的方向

梯度的长度表示“爬得有多快”

二、从一元函数到多元函数

一元函数:导数

对一元函数

\[f(x)\]

导数:

\[f'(x)\]

含义:

一元函数的导数,就是梯度的“低维版本”

多元函数:偏导数

考虑二元函数:

\[f(x, y)\]

你有两个方向可以走:

于是定义:

\[\frac{\partial f}{\partial x}, \quad \frac{\partial f}{\partial y}\]

它们分别表示:

三、梯度的数学定义(核心)

梯度定义

对函数

\[f(x_1, x_2, \dots, x_n)\]

梯度是一个向量

\[\nabla f = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix}\]

也常写作:

\[\mathrm{grad}, f\]

二元函数例子

\[f(x,y) = x^2 + y^2\]

偏导:

\[\frac{\partial f}{\partial x} = 2x, \quad \frac{\partial f}{\partial y} = 2y\]

梯度:

\[\nabla f = (2x, 2y)\]

四、几何意义

梯度方向

梯度向量:

例如:

\[x^2 + y^2 = c\]

是一个圆

在圆上任一点:

这也是为什么:

梯度 ⟂ 等高线(等值面)

梯度大小(模长)

\[|\nabla f|\]

表示:

山越陡,梯度越大 山顶/谷底,梯度 = $0$

五、梯度与“方向导数”的关系

方向导数

沿单位方向向量 $\mathbf{u}$ 的变化率:

\[D_{\mathbf{u}} f = \nabla f \cdot \mathbf{u}\]

点积!

结论

梯度 = 所有方向变化率的“总信息”

六、典型例子(一步步)

例 1:平面函数

\[f(x,y) = 3x + 4y\]

梯度:

\[\nabla f = (3, 4)\]

含义:

例 2:非线性函数

\[f(x,y) = x^2y\] \[\nabla f = (2xy, x^2)\]

在点 (1,2):

\[\nabla f(1,2) = (4,1)\]

说明:

七、梯度为 0 的意义(极值点)

\[\nabla f = \mathbf{0}\]

意味着:

这就是多元函数极值的必要条件

八、梯度在应用中的意义

梯度下降(机器学习核心)

为了最小化函数 $L(\theta)$:

\[\theta \leftarrow \theta - \eta \nabla L(\theta)\]

解释: