证明GLM中,对数似然函数为凹函数(存在唯一最大值)

📖记知识工程学习中帮助老师进行的一次证明。

证明 GLM 中,对数似然函数为凹函数(存在唯一最大值)

这种证明方法是从指数分布族入手的,我们的目标是证明:

\[log(p(y;\eta)) = log[b(y)exp(\eta^TT(y) - a(\eta))]\]

为凹函数。

引理

对此我们需要利用几个引理。

1. 指数分布族中参数$a(\eta)$满足$\nabla_\eta^2a(\eta)$半正定

具体证明见参考资料

2. 凸函数的一个充要条件是$H=[\frac{\partial^2 f}{\partial x_i \partial x_j}]$的所有特征值$\ge0$

3. 对称半正定矩阵特征值非负

证明

为了方便证明,我们将所求变形后取对数

\[log(p(y;\eta)) = \eta^TT(y) - a(\eta)+log(b(y))\]

由于在这里自变量为$\eta$,那么易知第三项$log(b(y))$不影响凹凸性。

对于第一项,我们易知:

\[\frac{\partial x^TT(y)}{\partial x} = T(y)\] \[\frac{\partial^2x^TT(y)}{\partial x^2} = 0\]

故$\eta^TT(y)$也不影响凹凸性。

因此我们只需证明$a(\eta)$的凹凸性即可。

我们已知$\nabla_\eta^2a(\eta)$半正定(引理 1) 又可证明:

\[\nabla_\eta^2a(\eta)=\frac{\partial^2 a(\eta)}{\partial \eta_i \partial \eta_j} = H\]

其$H$为 Hessian Matrix。

所以利用引理 2,3,4 我们可以知道,$a(\eta)$为凸函数。

则$log(p(y;\eta)) = \eta^TT(y) - a(\eta)+log(b(y))$ 为凹函数(存在唯一最大值)

此时证明完毕。

其他证明方法

一些其他讨论

虽然可以证明对数似然函数是凹函数,但是由于在一般条件下,若$f$为凹函数,则$\exp(f)$不可确定凹凸性。所以无法直接证明似然函数的凹凸性。

当然,目前普遍的结论也是 GLM 是log-concave的,并没有说似然函数的凹凸性。

参考文献

GLM :第 27 页开始提供了相关论述

Maximum likelihood estimation of cascade point-process neural encoding models:提供了另一种严格证明的方法,但是研究对象微微有所不同

Exponential family of distributions and generalized linear model : 本证明主要参考内容,提供了引理的证明