为什么梯度反方向是函数值下降最快的方向?

转载:知乎专栏
忆臻https://zhuanlan.zhihu.com/p/24913912

刚接触梯度下降这个概念的时候,是在学习机器学习算法的时候,很多训练算法用的就是梯度下降,然后资料和老师们也说朝着梯度的反方向变动,函数值下降最快,但是究其原因的时候,很多人都表达不清楚。所以我整理出自己的理解,从方向导数这个角度把这个结论证明出来,让我们知其然也知其所以然~

下面我一开始不提梯度的概念,完全根据自己的理解进行下文的梳理,一步一步推出梯度的来历:

  • 导数

导数的几何意义可能很多人都比较熟悉: 当函数定义域和取值都在实数域中的时候,导数可以表示函数曲线上的切线斜率。 除了切线的斜率,导数还表示函数在该点的变化率

将上面的公式转化为下面图像为:

(来自维基百科)

直白的来说,导数代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量变化的比值代表了导数,几何意义有该点的切线。物理意义有该时刻的(瞬时)变化率...

注意在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。

  • 偏导数

既然谈到偏导数,那就至少涉及到两个自变量,以两个自变量为例,z=f(x,y) . 从导数到偏导数,也就是从曲线来到了曲面. 曲线上的一点,其切线只有一条。但是曲面的一点,切线有无数条。

而我们所说的偏导数就是指的是多元函数沿坐标轴的变化率.

指的是函数在y方向不变,函数值沿着x轴方向的变化率

指的是函数在x方向不变,函数值沿着y轴方向的变化率

对应的图像形象表达如下:

那么偏导数对应的几何意义是是什么呢?

  • 偏导数就是曲面被平面所截得的曲面在点处的切线对x轴的斜率
  • 偏导数就是曲面被平面所截得的曲面在点处的切线对y轴的斜率

可能到这里,读者就已经发现偏导数的局限性了,原来我们学到的偏导数指的是多元函数沿坐标轴的变化率,但是我们往往很多时候要考虑多元函数沿任意方向的变化率,那么就引出了方向导数.

  • 方向导数

终于引出我们的重头戏了,方向导数,下面我们慢慢来走进它

假设你站在山坡上,相知道山坡的坡度(倾斜度)

山坡图如下:

假设山坡表示为,你应该已经会做主要俩个方向的斜率.

y方向的斜率可以对y偏微分得到.

同样的,x方向的斜率也可以对x偏微分得到

那么我们可以使用这俩个偏微分来求出任何方向的斜率(类似于一个平面的所有向量可以用俩个基向量来表示一样)

现在我们有这个需求,想求出方向的斜率怎么办.假设为一个曲面,定义域中一个点,单位向量的斜率,其中是此向量与轴正向夹角.单位向量可以表示对任何方向导数的方向.如下图:

那么我们来考虑如何求出方向的斜率,可以类比于前面导数定义,得出如下:

为一个二元函数,为一个单位向量,如果下列的极限值存在

此方向导数记为

则称这个极限值是沿着方向的方向导数,那么随着的不同,我们可以求出任意方向的方向导数.这也表明了方向导数的用处,是为了给我们考虑函数对任意方向的变化率.

在求方向导数的时候,除了用上面的定义法求之外,我们还可以用偏微分来简化我们的计算.

表达式是(至于为什么成立,很多资料有,不是这里讨论的重点)

那么一个平面上无数个方向,函数沿哪个方向变化率最大呢?

目前我不管梯度的事,我先把表达式写出来:

,

那么我们可以得到:

(为向量与向量之间的夹角)

那么此时如果要取得最大值,也就是当为0度的时候,也就是向量(这个方向是一直在变,在寻找一个函数变化最快的方向)与向量(这个方向当点固定下来的时候,它就是固定的)平行的时候,方向导数最大.方向导数最大,也就是单位步伐,函数值朝这个反向变化最快.

好了,现在我们已经找到函数值下降最快的方向了,这个方向就是和向量相同的方向.那么此时我把A向量命名为梯度(当一个点确定后,梯度方向是确定的),也就是说明了为什么梯度方向是函数变化率最大的方向了!!!(因为本来就是把这个函数变化最大的方向命名为梯度)

我的理解是,本来梯度就不是横空出世的,当我们有了这个需求(要求一个方向,此方向函数值变化最大),得到了一个方向,然后这个方向有了意义,我们给了它一个名称,叫做梯度(纯个人理解~希望对大家理解有帮助)欢迎知友提出问题交流~

时间: 2024-04-28 19:08:20

为什么梯度反方向是函数值下降最快的方向?的相关文章

反向梯度方向是函数值局部下降最快的方向

在SLAM中,机器学习中等关于梯度下降的应用还是蛮多的,但是关于"反向梯度方向是函数值局部下降最快的方向"等概念的解释,不是特别清晰,下面附上自己的一些理解. 名词解析: 梯度: 梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着梯度的方向变化最快. 设在平面区域D上具有一阶连续偏导数,为一个单位向量,如果下列的极限值存在 此方向导数记为 则称这个极限值是沿着方向的方向导数,那么随着的不同,我们可以求出任意方向的方向导数. 简化计算如下: 设, 那么

为什么局部下降最快的方向就是梯度的负方向?

https://blog.csdn.net/red_stone1/article/details/80212814什么是梯度?对于梯度下降算法(Gradient Descent Algorithm),我们都已经很熟悉了.无论是在线性回归(Linear Regression).逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法.我们先来看一下梯度下降算法的直观解释: 假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山.于

感知机回归

概述 感知机分类一文中提到了感知机模型在分类问题上的应用,如果,我们需要将其使用于回归问题呢,应该怎样处理呢? 其实只要修改算法的最后一步, sign(x)={+1,x≥0−1,x<0(1.1) sign(x)=\left\{\begin{matrix}+1 &, x\geq 0\\ -1 &, x< 0\end{matrix}\right.\tag{1.1}" role="presentation">sign(x)={+1?1,x≥0,x&

浅析神经网络中一点优化知识

在我们了解过神经网络的人中,都了解神经网络一个有很常见的训练方法,BP训练算法.通过BP算法,我们可以不断的训练网络,最终使得http://hz.chinamaofa.com/huxu/12996.html网络可以无限的逼近一种我们想要拟合的函数,最终训练好的网络它既能在训练集上表现好,也能在测试集上表现不错! 那么BP算法具体是什么呢?为什么通过BP算法,我们就可以一步一步的走向最优值(即使有可能是局部最优,不是全局最优,我们也可以通过其它的方法也达到全局最优),有没有一些什么数学原理在里面支

(2)Deep Learning之线性单元和梯度下降

往期回顾 在上一篇文章中,我们已经学会了编写一个简单的感知器,并用它来实现一个线性分类器.你应该还记得用来训练感知器的『感知器规则』.然而,我们并没有关心这个规则是怎么得到的.本文通过介绍另外一种『感知器』,也就是『线性单元』,来说明关于机器学习一些基本的概念,比如模型.目标函数.优化算法等等.这些概念对于所有的机器学习算法来说都是通用的,掌握了这些概念,就掌握了机器学习的基本套路. 线性单元是什么? 感知器有一个问题,当面对的数据集不是线性可分的时候,『感知器规则』可能无法收敛,这意味着我们永

梯度(转)

1. 基本概念 方向导数:是一个数:反映的是f(x,y)在P0点沿方向v的变化率. 偏导数:是多个数(每元有一个):是指多元函数沿坐标轴方向的方向导数,因此二元函数就有两个偏导数. 偏导函数:是一个函数:是一个关于点的偏导数的函数. 梯度:是一个向量:每个元素为函数对一元变量的偏导数:它既有大小(其大小为最大方向导数),也有方向. 2. 方向导数 反映的是f(x,y)在P0点沿方向v的变化率. 例子如下: 2.0 方向导数计算公式 2.1 偏导数 2.2 二元函数偏导数的几何意义 2.3 偏导函

Python实现简单的梯度下降法

Python 实现简单的梯度下降法 机器学习算法常常可以归结为求解一个最优化问题,而梯度下降法就是求解最优化问题的一个方法. 梯度下降法(gradient descent)或最速下降法(steepest decent),是求解无约束最优化问题的一种最常用的方法. 梯度下降法实现简单,是一种迭代算法,每一步会求解目标函数的梯度向量. 本文分为理论和 Python 代码实践,希望实现简单的梯度下降法,相关代码已放在 GitHub 中. 理论 问题定义 那么什么是目标函数,在机器学习中这常常是一个损失

梯度下降法Gradient descent(最速下降法Steepest Descent)

最陡下降法(steepest descent method)又称梯度下降法(英语:Gradient descent)是一个一阶最优化算法. 函数值下降最快的方向是什么?沿负梯度方向  d=−gk 原文地址:https://www.cnblogs.com/focusonoutput/p/12151198.html

《Master Opencv...读书笔记》非刚性人脸跟踪 III

上篇文章中,我们获得了人脸的各种表情模式,也就是一堆标注点的形变参数.这次我们需要训练一中人脸特征(团块模型),它能够对人脸的不同部位(即"标注点")分别进行描述,作为后面人脸跟踪.表情识别的区分依据.本次博文的主要内容: a.      介绍下人脸特征检测器大概有哪些类别 b.      详细介绍随机梯度法,并介绍在人脸团块特征提取时的应用 c.      为了提高训练/跟踪的健壮性,利用上一讲对输入的图像进行大小.角度的约束 人脸特征检测器综述 人脸特征检测与普通的物体检测非常相似