条件概率分布 (Conditional Probability Distribution ,或者 条件分布 ,Conditional Distribution )是现代概率论 中的概念。已知两个相关的随机变量 X 和Y ,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x 之时,Y 的概率分布 。 如果Y 在条件{X =x}下的条件概率分布是连续分布,那么其密度函数 称作Y 在条件{X =x}下的条件概率密度函数 (条件分布密度 、条件密度函数 )。与条件分布有关的概念,常常以“条件”作为前缀,如条件期望 、条件方差等等。
例子
如果骰子一侧是6点,朝上的可能是4点,但不可能是6点或1点。 假设在桌子上抛掷一枚普通的骰子,则其点数结果的概率分布是集合
{
1
,
2
,
3
,
4
,
5
,
6
}
{\displaystyle \{1,2,3,4,5,6\))
的均匀分布 :每个点数出现的概率都是均等的六分之一。然而,如果据某个坐在桌边的人观察,向着他的侧面是6点,那么,在此条件下,向上的一面不可能是6点,也不可能是6点对面的1点。因此,在此条件下,抛骰子的点数结果是集合
{
2
,
3
,
4
,
5
}
{\displaystyle \{2,3,4,5\))
的均匀分布:有四分之一的可能性出现
2
,
3
,
4
,
5
{\displaystyle 2,3,4,5}
四种点数中的一种。可以看出,增加的条件或信息量(某个侧面是6点)导致了点数结果的概率分布的变化。这个新的概率分布就是条件概率分布。
数学定义
更为严格清晰的定义需要用到数学语言。当随机变量是离散或连续时,条件概率分布有不同的表达方法。
离散条件分布
对于离散型的随机变量X 和Y (取值范围分别是
I
{\displaystyle {\mathcal {I))}
和
J
{\displaystyle {\mathcal {J))}
),随机变量Y 在条件{X =x}下的条件概率分布是:
∀
j
∈
J
,
p
Y
∣
X
(
j
)
=
p
Y
(
j
∣
X
=
i
)
=
P
(
Y
=
j
∣
X
=
i
)
=
P
(
X
=
i
,
Y
=
j
)
P
(
X
=
i
)
.
{\displaystyle \forall j\in {\mathcal {J)),\quad p_{Y\mid X}(j)=p_{Y}(j\mid X=i)=P(Y=j\mid X=i)={\frac {P(X=i,Y=j)}{P(X=i))).}
(
P
(
X
=
i
)
>
0
{\displaystyle P(X=i)>0}
)同样的,X 在条件{Y =y}下的条件概率分布是:
∀
i
∈
I
,
p
X
∣
Y
(
i
)
=
p
X
(
i
∣
Y
=
j
)
=
P
(
X
=
i
∣
Y
=
j
)
=
P
(
X
=
i
,
Y
=
j
)
P
(
Y
=
j
)
.
{\displaystyle \forall i\in {\mathcal {I)),\quad p_{X\mid Y}(i)=p_{X}(i\mid Y=j)=P(X=i\mid Y=j)={\frac {P(X=i,Y=j)}{P(Y=j))).}
(
P
(
Y
=
j
)
>
0
{\displaystyle P(Y=j)>0}
)其中,
P
(
X
=
i
,
Y
=
j
)
{\displaystyle P(X=i,Y=j)}
是X 和Y 联合分布概率,即“
X
=
i
{\displaystyle X=i}
,并且
Y
=
j
{\displaystyle Y=j}
发生的概率”。如果用
p
i
j
{\displaystyle p_{ij))
表示
P
(
X
=
i
,
Y
=
j
)
{\displaystyle P(X=i,Y=j)}
的值:
P
(
X
=
i
,
Y
=
j
)
=
p
i
j
{\displaystyle P(X=i,Y=j)=p_{ij))
那么随机变量 X 和Y 的边际分布 就是:
P
(
X
=
i
)
=
p
i
.
=
∑
j
∈
J
p
i
j
{\displaystyle P(X=i)=p_{i.}=\sum _{j\in {\mathcal {J))}p_{ij))
P
(
Y
=
j
)
=
p
.
j
=
∑
i
∈
I
p
i
j
{\displaystyle P(Y=j)=p_{.j}=\sum _{i\in {\mathcal {I))}p_{ij))
因此, 随机变量Y 在条件{X =x}下的条件概率分布也可以表达为:
p
Y
∣
X
(
j
)
=
P
(
Y
=
j
∣
X
=
i
)
=
p
i
j
p
i
.
.
{\displaystyle p_{Y\mid X}(j)=P(Y=j\mid X=i)={\frac {p_{ij)){p_{i.))}.}
(
p
i
.
>
0
{\displaystyle p_{i.}>0}
)同样的,X 在条件{Y =y}下的条件概率分布也可以表达为:
p
X
∣
Y
(
i
)
=
p
i
j
p
.
j
.
{\displaystyle p_{X\mid Y}(i)={\frac {p_{ij)){p_{.j))}.}
(
p
.
j
>
0
{\displaystyle p_{.j}>0}
)
连续条件分布
对于连续型的随机变量X 和Y ,
P
(
X
=
i
)
=
P
(
Y
=
j
)
=
0
{\displaystyle P(X=i)=P(Y=j)=0}
,因此对离散型随机变量的条件分布定义不适用。假设其联合密度函数为
f
(
x
,
y
)
{\displaystyle f(x,y)}
,X 和Y 的边际密度函数分别是
f
X
(
x
)
{\displaystyle f_{X}(x)}
和
f
Y
(
y
)
{\displaystyle f_{Y}(y)}
,那么Y 在条件{X =x}下的条件概率密度函数是:
f
Y
|
X
(
y
|
x
)
=
f
Y
(
y
∣
X
=
x
)
=
f
(
x
,
y
)
f
X
(
x
)
.
{\displaystyle f_{Y|X}(y|x)=f_{Y}(y\mid X=x)={\frac {f(x,y)}{f_{X}(x))).}
同样的,X 在条件{Y =y}下的条件概率密度函数是:
f
X
|
Y
(
x
|
y
)
=
f
X
(
x
∣
Y
=
y
)
=
f
(
x
,
y
)
f
Y
(
y
)
.
{\displaystyle f_{X|Y}(x|y)=f_{X}(x\mid Y=y)={\frac {f(x,y)}{f_{Y}(y))).}
条件分布和独立分布
在一定意义上,条件分布和独立分布是相对的。如果两个随机变量X 和Y 是独立分布的,那么不论是否已知某个关于X 的条件,都不会影响Y 的概率分布。用数学语言来说,就是:
P
(
Y
=
y
∣
X
=
x
)
=
P
(
Y
=
y
)
=
p
Y
(
y
)
{\displaystyle P(Y=y\mid X=x)=P(Y=y)=p_{Y}(y)}
这与独立分布的定义是相合的,事实上,随机变量X 和Y 相互独立分布,则:
P
(
Y
=
y
,
X
=
x
)
=
P
(
Y
=
y
)
⋅
P
(
X
=
x
)
.
{\displaystyle P(Y=y,X=x)=P(Y=y)\cdot P(X=x).}
因此
P
(
Y
=
y
)
=
P
(
Y
=
y
,
X
=
x
)
P
(
X
=
x
)
=
P
(
Y
=
y
∣
X
=
x
)
.
{\displaystyle P(Y=y)={\frac {P(Y=y,X=x)}{P(X=x)))=P(Y=y\mid X=x).}
参考资料
赵衡秀. 《概率论与数理统计》. 清华大学出版社. 2005.