极大似然估计的性质

1 minute read

Published: September 17, 2021

总结关于极大似然估计（Maximum Likelihood Estimate，MLE）的相关性质证明，包括同变性、一致性、渐进正态性。

一些证明主要参考了极大似然估计

同变性

若$MLE(\theta) = \hat{\theta},\tau=g(\theta)$,则$MLE(\tau)=g(\hat{\theta})$

证明：因为$\tau$和$\theta$有一一对应的关系，$\hat{\theta}$使得似然函数取得最大值，则当$\tau=g(\hat{\theta})$的时候，$\hat{\tau}$也使得似然函数取得最大值。

一致性

$\hat{\theta} \rightarrow \tilde{\theta}$, 其中$\hat{\theta}$为极大似然估计的参数，$\tilde{\theta}$是模型的真实参数。

证明思路：只需要注意到如下几点

经验分布函数收敛于分布函数
$\hat{\theta}$为使得似然函数的经验分布函数最大的点
$\tilde{\theta}$ 是使得似然函数最大的点

因此极大似然估计收敛于模型的真实参数。

渐进正态性

假设模型的真实参数为$\theta$，而MLE给出的参数估计为$\hat \theta$,我们有

\[\begin{align*} \sqrt{n} ( \hat \theta - \theta) \rightarrow N(0,\mathcal{I}(\theta)^{-1}) \end{align*}\]

其中 $\mathcal{I}(\theta) $ 为Fisher信息矩阵，证明使用Taylor展开，下面略去无穷小量以展示证明核心。

\[\begin{align*} \frac{ \partial \log L( X, \theta)}{\partial \theta} &\approx \frac{\partial^2 \log L_(X,\hat \theta) }{\partial \hat \theta^2} ( \theta - \hat \theta). \end{align*}\]

移项可以知道，

\[\begin{align*} \hat \theta - \theta \approx -\left( \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right)^{-1} \left(\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \right) \end{align*}\]

可以证明，

\[\begin{align*} \mathbb{E} \left[ \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right] &= -n\mathcal{I}(\theta) \\ \mathbb{E} \left[\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta}\right] &= 0 \\ Var\left[\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta}\right] &= n\mathcal{I}(\theta) \end{align*}\]

根据中心极限定理，当似然函数 $L$ 为很多个样本组成时，在渐进意义下有如下的依分布收敛，

\[\begin{align*} \frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \sim\mathcal{N}(0, n \mathcal{I}(\theta)). \end{align*}\]

根据大数定律，在渐进意义下有如下的依概率收敛，

\[\begin{align*} \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2} \rightarrow n \mathcal{I(\theta)} \end{align*}\]

根据Slutsky定理，在渐进意义下有如下的依分布收敛，

\[\begin{align*} \sqrt{n} \hat \theta - \theta \approx -\left( \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right)^{-1} \left(\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \right) \sim \mathcal{N}(0,\mathcal{I}(\theta)^{-1}). \end{align*}\]

极大似然估计的渐进正态性的简单应用是可以推出似然比检验的渐进分布，根据Taylor展开

\[\begin{align*} \log L(\theta) \approx \log L( \hat \theta) + \frac{1}{2} (\theta - \hat \theta)^\top \left( \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2}\right) (\theta - \hat \theta) \\ \end{align*}\]

可以看到，

\[\begin{align*} 2 \log( L(\theta)/L(\hat \theta) ) \approx (\theta - \hat \theta)^\top \left( \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2}\right) (\theta - \hat \theta) \end{align*}\]

右端项正好在渐进意义下是 $\chi^2$ 分布，自由度为参数 $\theta$ 的维数。

Share on

Twitter Facebook LinkedIn

Lesi Chen (陈乐偲)

极大似然估计的性质

同变性

一致性

渐进正态性

Share on

You May Also Enjoy

最好的估计与最好的检验

随机变量的收敛

概率图模型