在数学 中,偏导数 (英語:partial derivative )的定義是:一個多變量的函数(或稱多元函數),對其中一個變量(導數 )微分 ,而保持其他变量恒定[註 1] 。
偏导数的作用与价值在向量分析 和微分几何 以及机器学习 领域中受到广泛认可。
函数
f
{\displaystyle f}
关于变量
x
{\displaystyle x}
的偏导数写为
f
x
′
{\displaystyle f_{x}^{\prime ))
或
∂
f
∂
x
{\displaystyle {\frac {\partial f}{\partial x))}
。偏导数符号
∂
{\displaystyle \partial }
是全导数符号
d
{\displaystyle d}
的变体,由阿德里安-马里·勒让德 引入,并在雅可比 的重新引入后得到普遍接受。
f = x 2 + xy + y 2 的图像。我们希望求出函数在点(1, 1) 的对x 的偏导数;对应的切线与xOz 平面平行。
假设ƒ是一个多元函数。例如:
z
=
f
(
x
,
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle z=f(x,y)=x^{2}+xy+y^{2))
因为曲面上的每一点都有无穷多条切线,描述这种函数的导数 相当困难。偏导数就是选择其中一条切线,并求出它的斜率。通常,最感兴趣的是垂直于y 轴(平行于xOz 平面)的切线,以及垂直于x 轴(平行于yOz 平面)的切线。
一种求出这些切线的好办法是把其他变量视为常数。例如,欲求出以上的函数在点(1, 1) 的与xOz 平面平行的切线。右图中显示了函数的图像以及这个平面。左图中显示了函数在平面y = 1 上是什么样的。我们把变量y 视为常数,通过对方程求导,我们可以发现f 在点(x , y ) 的导数,记为:
∂
f
∂
x
=
2
x
+
y
{\displaystyle {\frac {\partial f}{\partial x))=2x+y}
于是在点(1, 1) 的xOz 平面平行的切线的斜率是3。
∂
f
∂
x
=
3
{\displaystyle {\frac {\partial f}{\partial x))=3}
在点(1, 1) ,或称“f 在(1, 1) 的关于x 的偏导数是3”。
函数f 可以解释为y 为自变量而x 为常数的函数:
f
(
x
,
y
)
=
f
x
(
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle f(x,y)=f_{x}(y)=\,\!x^{2}+xy+y^{2))
。也就是说,每一个x 的值定义了一个函数,记为fx ,它是一个一元函数。也就是说:
f
x
(
y
)
=
x
2
+
x
y
+
y
2
{\displaystyle f_{x}(y)=x^{2}+xy+y^{2))
。一旦选择了一个x 的值,例如a ,那么f (a ,y ) 便定义了一个函数fa ,把y 映射到a 2 + ay + y 2 :
f
a
(
y
)
=
a
2
+
a
y
+
y
2
{\displaystyle f_{a}(y)=a^{2}+ay+y^{2))
。在这个表达式中,a 是常数 ,而不是变量 ,因此fa 是只有一个变量的函数,这个变量是y 。这样,便可以使用一元函数的导数的定义:
f
a
′
(
y
)
=
a
+
2
y
{\displaystyle f_{a}'(y)=a+2y}
以上的步骤适用于任何a 的选择。把这些导数合并起来,便得到了一个函数,它描述了f 在y 方向上的变化:
∂
f
∂
y
(
x
,
y
)
=
x
+
2
y
{\displaystyle {\frac {\partial f}{\partial y))(x,y)=x+2y}
这就是f 关于y 的偏导数,在这裡,∂是一个弯曲的d ,称为偏导数符号 。为了把它与字母d 区分,∂有时读作“der”、“del”、“dah”或“偏”,而不是“dee”。
一般地,函数f (x 1 ,...,x n ) 在点(a 1 ,...,an ) 关于xi 的偏导数定义为:
∂
f
∂
x
i
(
a
1
,
…
,
a
n
)
=
lim
h
→
0
f
(
a
1
,
…
,
a
i
+
h
,
…
,
a
n
)
−
f
(
a
1
,
…
,
a
n
)
h
{\displaystyle {\frac {\partial f}{\partial x_{i))}(a_{1},\ldots ,a_{n})=\lim _{h\to 0}{\frac {f(a_{1},\ldots ,a_{i}+h,\ldots ,a_{n})-f(a_{1},\ldots ,a_{n})}{h))}
在以上的差商中,除了xi 以外的所有变量都是固定的。这个固定值的选择决定了一个一元函数
f
a
1
,
…
,
a
i
−
1
,
a
i
+
1
,
…
,
a
n
(
x
i
)
=
f
(
a
1
,
…
,
a
i
−
1
,
x
i
,
a
i
+
1
,
…
,
a
n
)
{\displaystyle f_{a_{1},\ldots ,a_{i-1},a_{i+1},\ldots ,a_{n))(x_{i})=f(a_{1},\ldots ,a_{i-1},x_{i},a_{i+1},\ldots ,a_{n})}
,根据定义,
d
f
a
1
,
…
,
a
i
−
1
,
a
i
+
1
,
…
,
a
n
d
x
i
(
a
1
,
…
,
a
n
)
=
∂
f
∂
x
i
(
a
1
,
…
,
a
n
)
{\displaystyle {\frac {df_{a_{1},\ldots ,a_{i-1},a_{i+1},\ldots ,a_{n))}{dx_{i))}(a_{1},\ldots ,a_{n})={\frac {\partial f}{\partial x_{i))}(a_{1},\ldots ,a_{n})}
这个表达式说明了偏导数的计算可以化为一元导数的计算。
多变量函数的一个重要的例子,是欧几里德空间R n (例如R 2 或R 3 )上的标量值函数 f (x 1 ,...x n ) 。在这种情况下,f 关于每一个变量xj 具有偏导数∂f /∂x j 。在点a ,这些偏导数定义了一个向量:
∇
f
(
a
)
=
(
∂
f
∂
x
1
(
a
)
,
…
,
∂
f
∂
x
n
(
a
)
)
{\displaystyle \nabla f(a)=\left({\frac {\partial f}{\partial x_{1))}(a),\ldots ,{\frac {\partial f}{\partial x_{n))}(a)\right)}
这个向量称为f 在点a 的梯度 。如果f 在定义域中的每一个点都是可微的,那么梯度便是一个向量值函数∇f ,它把点a 映射到向量∇f (a ) 。这样,梯度便决定了一个向量场 。
一个常见的符号滥用 是在欧几里得空间 R 3 中用单位向量
i
^
,
j
^
,
k
^
{\displaystyle \mathbf {\hat {i)) ,\mathbf {\hat {j)) ,\mathbf {\hat {k)) }
来定义Nabla算子 (∇) 如下:
∇
=
[
∂
∂
x
]
i
^
+
[
∂
∂
y
]
j
^
+
[
∂
∂
z
]
k
^
{\displaystyle \nabla ={\bigg [}{\frac {\partial }{\partial x)){\bigg ]}\mathbf {\hat {i)) +{\bigg [}{\frac {\partial }{\partial y)){\bigg ]}\mathbf {\hat {j)) +{\bigg [}{\frac {\partial }{\partial z)){\bigg ]}\mathbf {\hat {k)) }
或者,更一般地,对于n 维欧几里得空间R n 的坐标(x1 , x2 , x3 ,...,xn )和单位向量(
e
^
1
,
e
^
2
,
e
^
3
,
…
,
e
^
n
{\displaystyle \mathbf ((\hat {e))_{1)) ,\mathbf ((\hat {e))_{2)) ,\mathbf ((\hat {e))_{3)) ,\dots ,\mathbf ((\hat {e))_{n)) }
):
∇
=
∑
j
=
1
n
[
∂
∂
x
j
]
e
^
j
=
[
∂
∂
x
1
]
e
^
1
+
[
∂
∂
x
2
]
e
^
2
+
[
∂
∂
x
3
]
e
^
3
+
⋯
+
[
∂
∂
x
n
]
e
^
n
{\displaystyle \nabla =\sum _{j=1}^{n}{\bigg [}{\frac {\partial }{\partial x_{j))}{\bigg ]}\mathbf ((\hat {e))_{j)) ={\bigg [}{\frac {\partial }{\partial x_{1))}{\bigg ]}\mathbf ((\hat {e))_{1)) +{\bigg [}{\frac {\partial }{\partial x_{2))}{\bigg ]}\mathbf ((\hat {e))_{2)) +{\bigg [}{\frac {\partial }{\partial x_{3))}{\bigg ]}\mathbf ((\hat {e))_{3)) +\dots +{\bigg [}{\frac {\partial }{\partial x_{n))}{\bigg ]}\mathbf ((\hat {e))_{n)) }
圆锥的体积与它的高度和半径有关 考虑一个圆锥 的体积 V ;它与高度 h 和半径 r 有以下的关系:
V
(
r
,
h
)
=
π
r
2
h
3
{\displaystyle V(r,h)={\frac {\pi r^{2}h}{3))}
。V 关于r 的偏导数为:
∂
V
∂
r
=
2
π
r
h
3
{\displaystyle {\frac {\partial V}{\partial r))={\frac {2\pi rh}{3))}
,它描述了高度固定而半径变化时,圆锥的体积的变化率。V 关于h 的偏导数为:
∂
V
∂
h
=
π
r
2
3
{\displaystyle {\frac {\partial V}{\partial h))={\frac {\pi r^{2)){3))}
,它描述了半径固定而高度变化时,圆锥的体积的变化率。现在考虑V 关于r 和h 的全导数 。它们分别是:
d
V
d
r
=
2
π
r
h
3
⏞
∂
V
∂
r
+
π
r
2
3
⏞
∂
V
∂
h
∂
h
∂
r
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r))=\overbrace {\frac {2\pi rh}{3)) ^{\frac {\partial V}{\partial r))+\overbrace {\frac {\pi r^{2)){3)) ^{\frac {\partial V}{\partial h)){\frac {\partial h}{\partial r))}
以及
d
V
d
h
=
π
r
2
3
⏞
∂
V
∂
h
+
2
π
r
h
3
⏞
∂
V
∂
r
∂
r
∂
h
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} h))=\overbrace {\frac {\pi r^{2)){3)) ^{\frac {\partial V}{\partial h))+\overbrace {\frac {2\pi rh}{3)) ^{\frac {\partial V}{\partial r)){\frac {\partial r}{\partial h))}
现在假设,由于某些原因,高度和半径的比k 需要是固定的:
k
=
h
r
=
∂
h
∂
r
{\displaystyle k={\frac {h}{r))={\frac {\partial h}{\partial r))}
这便给出了关于r 的全导数:
d
V
d
r
=
2
π
r
h
3
+
k
π
r
2
3
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r))={\frac {2\pi rh}{3))+k{\frac {\pi r^{2)){3))}
可以化简为:
d
V
d
r
=
k
π
r
2
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} r))=k\pi r^{2))
类似地,关于h 的全导数是:
d
V
d
h
=
π
r
2
{\displaystyle {\frac {\operatorname {d} V}{\operatorname {d} h))=\pi r^{2))
含有未知函数的偏导数的方程,称为偏微分方程 ,它在物理学 、工程学 ,以及其它应用科学 中经常会见到。
与关于r 和h 二者相关的全导数是由雅可比矩阵 给出的,它的形式为梯度 向量
∇
V
=
(
∂
V
∂
r
,
∂
V
∂
h
)
=
(
2
3
π
r
h
,
1
3
π
r
2
)
{\displaystyle \nabla V=({\frac {\partial V}{\partial r)),{\frac {\partial V}{\partial h)))=({\frac {2}{3))\pi rh,{\frac {1}{3))\pi r^{2})}
。
在以下的例子中,设f 为x 、y 和z 的函数。
f 的一阶偏导数为:
∂
f
∂
x
=
f
x
=
∂
x
f
{\displaystyle {\frac {\partial f}{\partial x))=f_{x}=\partial _{x}f}
二阶偏导数为:
∂
2
f
∂
x
2
=
f
x
x
=
∂
x
x
f
{\displaystyle {\frac {\partial ^{2}f}{\partial x^{2))}=f_{xx}=\partial _{xx}f}
二阶混合偏导数 为:
∂
2
f
∂
y
∂
x
=
∂
∂
y
(
∂
f
∂
x
)
=
f
x
y
=
∂
y
x
f
{\displaystyle {\frac {\partial ^{2}f}{\partial y\,\partial x))={\frac {\partial }{\partial y))\left({\frac {\partial f}{\partial x))\right)=f_{xy}=\partial _{yx}f}
高阶偏导数为:
∂
i
+
j
+
k
f
∂
x
i
∂
y
j
∂
z
k
=
f
(
i
,
j
,
k
)
{\displaystyle {\frac {\partial ^{i+j+k}f}{\partial x^{i}\,\partial y^{j}\,\partial z^{k))}=f^{(i,j,k)))
当处理多变量函数时,有些变量 可能互相有关,这样就需要明确指定哪些变量是固定的。在诸如统计力学 的领域中,f 关于x 的偏导数,把y 和z 视为常数,通常记为:
(
∂
f
∂
x
)
y
,
z
{\displaystyle \left({\frac {\partial f}{\partial x))\right)_{y,z))
像导数一样,偏导数也是定义为一个极限 。设U 为R n 的一个开子集 ,f : U → R 是一个函数。我们定义f 在点a = (a 1 , ..., a n ) ∈ U 关于第i 个变量xi 的偏导数为:
∂
∂
x
i
f
(
a
)
=
lim
h
→
0
f
(
a
1
,
…
,
a
i
−
1
,
a
i
+
h
,
a
i
+
1
,
…
,
a
n
)
−
f
(
a
1
,
…
,
a
n
)
h
{\displaystyle {\frac {\partial }{\partial x_{i))}f(\mathbf {a} )=\lim _{h\rightarrow 0}{f(a_{1},\dots ,a_{i-1},a_{i}+h,a_{i+1},\dots ,a_{n})-f(a_{1},\dots ,a_{n}) \over h))
即使在某个给定的点a ,所有的偏导数∂f /∂x i (a ) 都存在,函数仍然不一定在该点连续 。然而,如果所有的偏导数在a 的一个邻域 内存在并连续,那么f 在该邻域内完全可微分 ,且全导数是连续的。在这种情况下,我们称f 是一个C1 函数。
偏导数
∂
f
∂
x
{\displaystyle {\frac {\partial f}{\partial x))}
可以视为定义在U 内的另外一个函数,并可以再次求偏导数。如果所有的混合二阶偏导数在某个点(或集合)连续,我们便称f 为在该点(或集合)的一个C2 函数;在这种情况下,根据克莱罗定理 ,偏导数可以互相交换:
∂
2
f
∂
x
i
∂
x
j
=
∂
2
f
∂
x
j
∂
x
i
{\displaystyle {\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j))}={\frac {\partial ^{2}f}{\partial x_{j}\,\partial x_{i))))
。George B. Thomas & Ross L. Finney. Calculus and Analytic Geometry. Addison-Wesley Publishing Company, Inc. 1994: 833–840. ISBN 0-201-52929-7 .