1. 引言
泊松分布是研究计数数据中最常用的模型,计数但是面对散度过大的数据时,拟合效果往往不够理想,而这类数据的特点是存在大量的零值,我们把这类数据称为零膨胀数据。对这类数据的研究最早可见于20世纪60年代中关于零膨胀现象的探索,1992年Lamber [1] 提出了零膨胀泊松分布模型,并用于电子制造业的质量控制当中;近些年零膨胀模型得到充分的扩展,Ghosh [2] 等研究了零膨胀模型的贝叶斯方法,Fahrmeir [3] 等提出了一类零膨胀可加模型。当数据变量较多时就需要进行变量选择,本文基于惩罚似然的EM算法 [4] [5] ,用岭回归、Lasso、自适应Lasso和加权弹性网对德国卫生保健数据进行分析。
2. 模型假定和方法分析
2.1. 零膨胀泊松模型
零膨胀泊松分布模型的思想是取值为0的部分和取值为泊松分布的部分按一定比例构成的混合分布,由此我们可以得到零膨胀泊松模型的具体表达:
(2.1)
其中
表示0占的比例,g(y)来自泊松分布,且每一部分的概率都在(0, 1)之间。由(2.1)式可知观测值0由两部分构成,这里把来自额外的零的部分叫做结构零,来自离散分布的零的部分记为分布零,则
的概率密度为:
(2.2)
为结构零的比例,当
时模型(2.2)退化为泊松分布。为了考虑零膨胀计数数据中响应变量与协变量之间的关系,Lambert对零膨胀参数
和泊松分布参数
引入协变量,二者分别用logistic回归和对数线性回归模型建模,由此得到零膨胀泊松回归模型,连接函数如下所示:
(2.3)
其中
是协变量
的回归系数,
是协变量
的回归系数,且
分别是p维和q维向量。
2.2. ZIP模型似然函数
引入潜在数据
,如果
来自额外零,记
,否则
,故
有如下分布:
(2.4)
令
,其中
为观测数据,则Y为完全数据集,取
,则基于完全数据得到的ZIP模型的似然函数为:
(2.5)
则对数似然函数为:
(2.6)
3. 惩罚似然方法
假设线性回归模型为
,其中
,参数
有如下表达:
(3.1)
其中上式
控制了模型的复杂性,在变量选择时
可以是岭惩罚、Lasso惩罚、或弹性网惩罚,
为非负的调整参数。其中岭惩罚可以定义为
;Lasso惩罚 [6] 作为选择变量的正则化方法,可以定义为
估计,即:
(3.2)
其中
表示惩罚项中参数系数的权重。本节从弹性网 [7] 的思想出发,将惩罚项中的权重用于
惩罚和
惩罚中,利用EM算法对加权弹性网的对数似然函数获得最优解,记
作为对数似然函数,且
,则相应的零膨胀计数模型的惩罚似然函数为:
(3.3)
其中
,参数
都由岭回归估计得到,调整参数
,
是相关系数的标准误。
3.1. EM算法
令
,根据零膨胀泊松分布模型的条件期望有:
(3.4)
基于EM算法,首先用无惩罚最大似然估计所得
作为初始化参数
,首先进行E步,根据完全数据和更新得到参数估计值的条件期望更新
,假设参数值为
,那么:
(3.5)
其中
为零膨胀泊松分布,即
;
(3.6)
M步:对于给定的
将Q函数最小化,即分别最小化
和
,则:
(3.7)
其中
分别表示t步迭代时参数
的估计值;按照上述E步和M步进行迭代最后收敛得到
。
3.2. 调整参数选择
本文根据最小BIC原则确定调整参数
,BIC准则定义如下:
(3.8)
其中
为对数似然函数,n为样本个数,
为零膨胀泊松分布有效参数个数。
4. 实例分析
患者的医疗需求一直是医疗研究中的重要问题之一,本文选择德国卫生需求数据,该用于研究就诊次数与患者状况之间的关系,数据包括响应变量就诊次数数据和13个与患者状况相关数据,共有1812个观测值。本文用岭回归、Lasso、自适应Lasso、和加权弹性网分别对影响就诊次数的相关因素进行变量选择,其中自适应Lasso的权重参数为
,加权弹性网的权重参数为
,
是由岭回归估计得到的参数。
Table 1. Coefficient estimation of data model fitting
表1. 数据模型拟合的系数估计
根据表1的结果可以看出加权弹性网相比于其他方法的BIC值更小,说明该方法比岭回归、Lasso和自适应Lasso拟合效果更好;分析加权弹性网的参数估计可知,残疾程度、结婚与否、受教育年限、收入、是否蓝领与就诊次数无关;健康满意度、是否有孩子与就诊次数为零时呈正相关,残疾程度与就诊次数为零时呈负相从泊松部分拟合参数可知,增加就诊次数的影响因素有年龄、是否残疾、是否有公共健康保险和是否有附加保险,其中是否残疾和是否有保险对增加就诊次数的起主要影响,说明身体情况和参保对就诊次数有较强的影响;对就诊次数呈负相关的影响因素为健康满意度、是否结婚、是否自营和是否公务员,其中主要因素为健康满意度、是否自营、是否公务员和是否被雇佣,说明生活和工作越繁忙,就诊次数越少。
5. 结论
本文基于就诊次数数据特征,构建了零膨胀泊松模型,并分别用岭回归、Lasso、自适应Lasso和加权弹性网进行变量选择,得到影响就诊次数的主要变量。但是,目前本文中关注的仅是截面数据,在纵向数据等方面仍有较大的发展空间。