极大似然估计的性质
Published:
总结关于极大似然估计(Maximum Likelihood Estimate,MLE)的相关性质证明,包括同变性、一致性、渐进正态性。
一些证明主要参考了 极大似然估计
同变性
若$MLE(\theta) = \hat{\theta},\tau=g(\theta)$,则$MLE(\tau)=g(\hat{\theta})$
证明:因为$\tau$和$\theta$有一一对应的关系,$\hat{\theta}$使得似然函数取得最大值,则当$\tau=g(\hat{\theta})$的时候,$\hat{\tau}$也使得似然函数取得最大值。
一致性
$\hat{\theta} \rightarrow \tilde{\theta}$, 其中$\hat{\theta}$为极大似然估计的参数,$\tilde{\theta}$是模型的真实参数。
证明思路:只需要注意到如下几点
- 经验分布函数收敛于分布函数
- $\hat{\theta}$为使得似然函数的经验分布函数最大的点
- $\tilde{\theta}$ 是使得似然函数最大的点
因此极大似然估计收敛于模型的真实参数。
渐进正态性
假设模型的真实参数为$\theta$,而MLE给出的参数估计为$\hat \theta$,我们有
\[\begin{align*} \sqrt{n} ( \hat \theta - \theta) \rightarrow N(0,\mathcal{I}(\theta)^{-1}) \end{align*}\]其中 $\mathcal{I}(\theta) $ 为Fisher信息矩阵,证明使用Taylor展开,下面略去无穷小量以展示证明核心。
\[\begin{align*} \frac{ \partial \log L( X, \theta)}{\partial \theta} &\approx \frac{\partial^2 \log L_(X,\hat \theta) }{\partial \hat \theta^2} ( \theta - \hat \theta). \end{align*}\]移项可以知道,
\[\begin{align*} \hat \theta - \theta \approx -\left( \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right)^{-1} \left(\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \right) \end{align*}\]可以证明,
\[\begin{align*} \mathbb{E} \left[ \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right] &= -n\mathcal{I}(\theta) \\ \mathbb{E} \left[\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta}\right] &= 0 \\ Var\left[\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta}\right] &= n\mathcal{I}(\theta) \end{align*}\]根据中心极限定理,当似然函数 $L$ 为很多个样本组成时,在渐进意义下有如下的依分布收敛,
\[\begin{align*} \frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \sim\mathcal{N}(0, n \mathcal{I}(\theta)). \end{align*}\]根据大数定律,在渐进意义下有如下的依概率收敛,
\[\begin{align*} \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2} \rightarrow n \mathcal{I(\theta)} \end{align*}\]根据Slutsky定理,在渐进意义下有如下的依分布收敛,
\[\begin{align*} \sqrt{n} \hat \theta - \theta \approx -\left( \frac{\partial^2 \log L(X,\hat \theta) }{\partial \hat \theta^2}\right)^{-1} \left(\frac{ \partial \log L( X, \hat \theta)}{\partial \hat \theta} \right) \sim \mathcal{N}(0,\mathcal{I}(\theta)^{-1}). \end{align*}\]极大似然估计的渐进正态性的简单应用是可以推出似然比检验的渐进分布,根据Taylor展开
\[\begin{align*} \log L(\theta) \approx \log L( \hat \theta) + \frac{1}{2} (\theta - \hat \theta)^\top \left( \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2}\right) (\theta - \hat \theta) \\ \end{align*}\]可以看到,
\[\begin{align*} 2 \log( L(\theta)/L(\hat \theta) ) \approx (\theta - \hat \theta)^\top \left( \frac{\partial^2 \log L(X,\hat \theta)}{\partial \hat \theta^2}\right) (\theta - \hat \theta) \end{align*}\]右端项正好在渐进意义下是 $\chi^2$ 分布,自由度为参数 $\theta$ 的维数。