Lindley分布参数变点的贝叶斯估计
Bayesian Estimation of Parameter Change Points of Lindley Distribution
DOI: 10.12677/PM.2022.1210190, PDF, HTML, XML, 下载: 398  浏览: 623  国家自然科学基金支持
作者: 赵孟茹*, 周菊玲#:新疆师范大学数学科学学院,新疆 乌鲁木齐
关键词: Lindley分布变点M-H抽样贝叶斯估计Lindley Distribution Change Point M-H Sampling Bayes Estimation
摘要: 利用贝叶斯方法研究了Lindley分布参数存在变点的参数估计问题,给出Lindley分布的变点模型,对参数选取无信息先验分布和伽玛分布两种情况,分别求出各参数的满条件分布,并通过R软件做随机模拟,得出各参数的MC误差都小于2%,且区间估计效果理想,表明通过贝叶斯估计研究各参数的估计值是有效的。
Abstract: The parameter estimation problem of Lindley distribution with change points is studied by using Bayesian method. The change point model of Lindley distribution is given. The full conditional distribution of each parameter is calculated for the two cases of no information prior distribution and gamma distribution when the parameters are selected. The random simulation by R software shows that the MC error of each parameter is less than 2%, and the interval estimation effect is ideal. It shows that the estimation of each parameter by Bayesian estimation is effective.
文章引用:赵孟茹, 周菊玲. Lindley分布参数变点的贝叶斯估计[J]. 理论数学, 2022, 12(10): 1757-1764. https://doi.org/10.12677/PM.2022.1210190

1. 引言

Lindley分布是可靠性研究中的一个重要分布,某些寿命数据可通过Lindley模型达到更好的拟合效果 [1]。Krishna等在逐步II型右删失数据下,采用极大似然方法和贝叶斯方法研究了Lindley分布的可靠性 [2]。杨冬霞等分别在完全数据、逐步I型区间删失数据,逐步II型删失数据以及定数截尾样本下研究了Lindley分布的参数估计问题 [3] [4] [5];范梓淼等分别讨论了在NA随机样本序列和独立同分布样本下Lindley分布参数的经验贝叶斯检验函数问题 [6] [7];龙兵分析了Lindley分布参数的区间估计和假设检验问题 [8];近几年,变点问题也是统计方向研究的一个热点问题。何朝兵等在左截断右删失数据下对指数分布多变点模型进行了参数估计 [9]。沙雪云等利用贝叶斯方法研究了Lomax分布形状参数变点的估计模型 [10];程静等用极大似然估计和贝叶斯估计讨论了两种分布的单变点问题 [11] [12]。关于Lindley分布参数变点问题的研究较少,本文给出了Lindley分布的变点模型,在叙述了解决多变点模型问题的具体步骤后,主要研究Lindley分布参数的单变点模型,分别在无信息先验分布和伽玛分布为先验分布的条件下,利用贝叶斯估计研究参数和变点位置,并通过R软件进行随机模拟。结果显示:各参数的估计值和真实值之间的MC误差较小,表明其估计值的效果较为理想。

2. Lindley分布变点模型

设随机变量 服从参数为 θ 的Lindley分布,则分布函数和密度函数如下:

F ( x ; θ ) = 1 ( 1 + θ θ + 1 x ) exp ( θ x ) , x > 0.

f ( x ; θ ) = θ 2 θ + 1 ( 1 + x ) exp ( θ x ) , x > 0.

其中参数 θ > 0

Lindley分布多变点模型为:

X i ~ { Lindley ( θ 1 ) , i = 1 , 2 , , k 1 Lindley ( θ 2 ) , i = k 1 + 1 , , k 2 Lindley ( θ m + 1 ) , i = k m + 1 , , n .

其中 θ 1 , θ 2 , , θ m + 1 两两不等,m是变点个数, k 1 , k 2 , , k m (满足 1 k 1 < k 2 < < k m n 1 )是需要估计的变点位置。通过二分分段法来解决多变点的问题的具体步骤为:先确定Lindley分布的序列S中是否存在单变点,如果没有,则序列S中无变点;如果存在单变点,此变点将Lindley分布的序列S拆分成两个子序列,再次确定两个子序列中是否存在单变点,重复上述步骤,直至所有子序列中识别不到变点为止。

设随机变量 X i ( i = 1 , 2 , , n ) 相互独立且满足

X i ~ { Lindley ( θ 1 ) , i = 1 , 2 , , k , Lindley ( θ 2 ) , i = k + 1 , , n .

其中参数 θ 1 , θ 2 > 0 , 1 k n 1 k N + k , θ 1 , θ 2 均未知,当 θ 1 θ 2 时k就是要讨论的变点,此模型只含有一个变点,称其为Lindley分布的单变点模型。

下文确定各参数的贝叶斯估计,对 取无信息先验分布: π ( k ) = 1 n 1 ,对参数 θ 1 , θ 2 分别取无信息先验分布和伽玛分布后,再对变点k和参数 θ 1 , θ 2 做贝叶斯估计。

3. Lindley分布参数的贝叶斯估计

θ 1 θ 2 时,设k是变点,故此变点问题的似然函数为

L ( k , θ 1 , θ 2 | x ) = θ 1 2 θ 1 + 1 ( 1 + x 1 ) exp ( θ 1 x 1 ) θ 1 2 θ 1 + 1 ( 1 + x k ) exp ( θ 1 x k ) θ 2 2 θ 2 + 1 ( 1 + x k + 1 ) exp ( θ 2 x k + 1 ) θ 2 2 θ 2 + 1 ( 1 + x n ) exp ( θ 2 x n ) . = θ 1 2 k ( θ 1 + 1 ) k i = 1 k ( 1 + x i ) exp ( θ 1 i = 1 k x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k i = k + 1 n ( 1 + x i ) exp ( θ 2 i = k + 1 n x i ) .

1) 通过Jeffreys提出的用Fisher信息阵来确定 θ 1 , θ 2 的无信息先验分布。

样本对数似然函数为:

l ( θ 1 , θ 2 | x ) = 2 k ln θ 1 k ln ( θ 1 + 1 ) + i = 1 k ln ( 1 + x i ) θ 1 i = 1 k x i + 2 ( n k ) ln θ 2 ( n k ) ln ( θ 2 + 1 ) + i = k + 1 n ln ( 1 + x i ) θ 2 i = k + 1 n x i .

其中 x = x i ( i = 1 , 2 , , n )

通过样本对数似然函数可以求得:

l θ 1 = 2 k θ 1 k θ 1 + 1 i = 1 k x i , 2 l θ 1 2 = 2 k θ 1 2 + k ( θ 1 + 1 ) 2 , 2 l θ 1 θ 2 = 0.

l θ 2 = 2 ( n k ) θ 2 n k θ 2 + 1 i = k + 1 n x i , 2 l θ 2 2 = 2 ( n k ) θ 2 2 + n k ( θ 2 + 1 ) 2 , 2 l θ 2 θ 1 = 0.

进而得到 θ 1 , θ 2 的无信息先验矩阵为:

I ( θ 1 , θ 2 ) = E x | θ 1 , θ 2 ( 2 l θ i θ j ) = ( 2 k θ 1 2 k ( θ 1 + 1 ) 2 0 0 2 ( n k ) θ 2 2 n k ( θ 2 + 1 ) 2 ) .

其中 i , j = 1 , 2

θ 1 , θ 2 的无信息先验分布为:

π ( θ 1 , θ 2 ) = [ det I ( θ 1 , θ 2 ) ] 1 2 = [ ( 2 k θ 1 2 k ( θ 1 + 1 ) 2 ) ( 2 ( n k ) θ 2 2 n k ( θ 2 + 1 ) 2 ) ] 1 2 = [ k ( n k ) [ 2 ( θ 1 + 1 ) 2 θ 1 2 ] [ 2 ( θ 2 + 1 ) 2 θ 2 2 ] θ 1 2 ( θ 1 + 1 ) 2 θ 2 2 ( θ 2 + 1 ) 2 ] 1 2 .

由贝叶斯公式求得 k , θ 1 , θ 2 的联合后验分布为:

π ( k , θ 1 , θ 2 | x ) L ( k , θ 1 , θ 2 | x ) π ( k ) π ( θ 1 , θ 2 ) = θ 1 2 k ( θ 1 + 1 ) k i = 1 k ( 1 + x i ) exp ( θ 1 i = 1 k x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k i = k + 1 n ( 1 + x i ) exp ( θ 2 i = k + 1 n x i ) 1 n 1 [ k ( n k ) [ 2 ( θ 1 + 1 ) 2 θ 1 2 ] [ 2 ( θ 2 + 1 ) 2 θ 2 2 ] θ 1 2 ( θ 1 + 1 ) 2 θ 2 2 ( θ 2 + 1 ) 2 ] 1 2 .

各参数满条件分布为:

f ( θ 1 | θ 2 , k , x i ) θ 1 2 k ( θ 1 + 1 ) k exp ( θ 1 i = 1 k x i ) [ [ 2 ( θ 1 + 1 ) 2 θ 1 2 ] θ 1 2 ( θ 1 + 1 ) 2 ] 1 2 ;

f ( θ 2 | θ 1 , k , x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k exp ( θ 2 i = k + 1 n x i ) [ [ 2 ( θ 2 + 1 ) 2 θ 2 2 ] θ 2 2 ( θ 2 + 1 ) 2 ] 1 2 ;

f ( k | θ 1 , θ 2 , x i ) θ 1 2 k ( θ 1 + 1 ) k i = 1 k ( 1 + x i ) exp ( θ 1 i = 1 k x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k

i = k + 1 n ( 1 + x i ) exp ( θ 2 i = k + 1 n x i ) [ k ( n k ) ] 1 2 .

比较选取均匀分布作为先验分布来说,Jeffreys提出的用Fisher信息阵来确定 θ 1 , θ 2 的无信息先验分布在单调变换中具有不变性,能够保证不论采取什么样的参数化方法,它们的先验分布始终是互通的,从而后验分布也是互通的。

2) θ 1 , θ 2 的先验分布为伽玛分布 ( G a ( b i , c i ) , i = 1 , 2 )

{ π ( θ 1 ) = G a ( θ 1 | b 1 , c 1 ) = c 1 b 1 Γ ( b 1 ) θ 1 b 1 1 e c 1 θ 1 , θ 1 > 0 , b 1 > 0 , c 1 > 0. π ( θ 2 ) = G a ( θ 2 | b 2 , c 2 ) = c 2 b 2 Γ ( b 2 ) θ 2 b 2 1 e c 2 θ 2 , θ 2 > 0 , b 2 > 0 , c 2 > 0.

k , θ 1 , θ 2 相互独立,由贝叶斯公式得 k , θ 1 , θ 2 的联合后验密度为:

π ( k , θ 1 , θ 2 | x ) L ( k , θ 1 , θ 2 | x ) π ( k ) π ( θ 1 ) π ( θ 2 ) = 1 n 1 θ 1 2 k ( θ 1 + 1 ) k i = 1 k ( 1 + x i ) exp ( θ 1 i = 1 k x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k i = k + 1 n ( 1 + x i ) exp ( θ 2 i = k + 1 n x i ) c 1 b 1 Γ ( b 1 ) θ 1 b 1 1 e c 1 θ 1 c 2 b 2 Γ ( b 2 ) θ 2 b 2 1 e c 2 θ 2 .

各参数满条件分布为:

f ( θ 1 | θ 2 , k , x i ) θ 1 2 k ( θ 1 + 1 ) k exp ( θ 1 i = 1 k x i ) θ 1 b 1 1 e c 1 θ 1 ;

f ( θ 2 | θ 1 , k , x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k exp ( θ 2 i = k + 1 n x i ) θ 2 b 2 1 e c 2 θ 2 ;

f ( k | θ 1 , θ 2 , x i ) θ 1 2 k ( θ 1 + 1 ) k i = 1 k ( 1 + x i ) exp ( θ 1 i = 1 k x i ) θ 2 2 ( n k ) ( θ 2 + 1 ) n k i = k + 1 n ( 1 + x i ) exp ( θ 2 i = k + 1 n x i ) .

4. 随机模拟

在随机模拟过程中,考虑到参数 θ 1 , θ 2 , k 的满条件分布比较复杂,因此选用M-H算法对各参数的满条件分布进行抽样。接下来介绍Markov Chain Monte Carlo (MCMC)算法的几个具体步骤:

设初始点 α ( 0 ) = ( k ( 0 ) , θ 1 ( 0 ) , θ 2 ( 0 ) ) 经过迭代后第 t 1 次迭代值为 α ( t 1 ) = ( k ( t 1 ) , θ 1 ( t 1 ) , θ 2 ( t 1 ) ) ,则第t次迭代步骤如下:

1) θ 1 ( t ) ~ f ( θ 1 | θ 2 , k , x i ) ,选取建议分布 q ( θ 1 ( t 1 ) , θ 1 ) 为均匀分布,并从中随机抽取 θ 1 ,令 r ( θ 1 ( t 1 ) , θ 1 ) = min { π ( θ 1 | ) π ( θ 1 ( t 1 ) | ) , 1 } ,若随机数 u r ( θ 1 ( t 1 ) , θ 1 ) ,则 θ 1 ( t ) = θ 1 ,否则 θ 1 ( t ) = θ 1 ( t 1 )

2) θ 2 ( t ) ~ f ( θ 2 | θ 1 , k , x i ) ,获取 θ 2 ( t ) 与1)类似;

3) k ( t ) ~ f ( k | θ 1 , θ 2 , x i ) ,选取建议分布 q ( k ( t 1 ) , k ) 为取值 0 , 1 , , n 1 的离散型均匀分布,并从中随机抽取 k ,令 r ( k ( t 1 ) , k ) = min { π ( k | ) π ( k ( t 1 ) | ) , 1 } ,若随机数 u r ( k ( t 1 ) , k ) ,则 k ( t ) = k ,否则 k ( t ) = k ( t 1 )

( k ( j ) , θ 1 ( j ) , θ 2 ( j ) ) , j = 1 , 2 , , B , , M 为迭代M次所得的Gibbs样本,若B次后迭代逐渐收敛,则将后 M B M B 个迭代的均值作为参数 k , θ 1 , θ 2 的估计值,

k ^ = 1 M B t = B + 1 M k ( t ) , θ ^ i = 1 M B t = B + 1 M θ i ( t ) , i = 1 , 2.

n = 200 个样本,参数 ( k , θ 1 , θ 2 ) 的真实值取 ( 100 , 3 , 8 ) ,此时Lindley分布的模型为:

X i ~ { 9 4 ( 1 + x ) exp ( 3 x ) , i = 1 , 2 , , 100 64 9 ( 1 + x ) exp ( 8 x ) , i = 101 , 102 , , 200

利用各参数的满条件分布,运用R软件进行MCMC模拟。为确保参数的收敛性,先进行10,000次的预迭代,再进行20,000次迭代。结果如下所示:

1) 当 θ 1 , θ 2 选取无信息先验分布时:

Table 1. Bayesian estimation of parameters k , θ 1 , θ 2 under uninformative prior distribution

表1. 无信息先验分布下参数 k , θ 1 , θ 2 的贝叶斯估计

Figure 1. The iteration trajectory of parameter k

图1. 参数k的迭代轨迹

Figure 2. The iteration trajectory of parameter k

图2. 参数k的迭代轨迹

2) 当 θ 1 , θ 2 选取伽玛先验分布时: θ 1 ~ G a ( 7 , 3 ) θ 2 ~ G a ( 9 , 2 )

Table 2. Bayesian estimation of parameters k , θ 1 , θ 2 under conjugate prior distribution

表2. 共轭先验分布下参数 k , θ 1 , θ 2 的贝叶斯估计

Figure 3. Two iteration trajectories of the parameter k

图3. 参数k的两条迭代图

Figure 4. Two iteration trajectories of the parameter k

图4. 参数k的两条迭代轨迹

结果分析:由表1表2知,当参数选取不同的先验分布后再进行随机模拟,得到各参数估计值与真实值的MC误差均不超过2%,因此各参数的估计值在较高水平上是有效的;各参数置信水平0.95的置信区间[2.5%分位数,97.5%分位数]较窄,说明区间估计效果良好;图1图2是变点k的抽样迭代轨迹,可以根据图上信息判断样本是否收敛。两张图上显示出抽样基本都在变点附近波动,具有一定的规律性;此外,由图3图4看出k的两条Markov链趋于重合,具有较好的收敛性。综上可得,Lindley分布的参数和变点估计可由MCMC算法得到较为理想的效果,可用该方法解决Lindley分布的变点问题。

基金项目

国家自然科学基金项目(11801488);新疆师范大学教学研究与改革项目(SDJG2020-30);新疆师范大学科研发展专项项目(XJNUZX202001)。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] 龙兵. II型删失下Lindley分布的参数估计(英文) [J]. 湖南师范大学自然科学学报, 2017, 40(6): 71-75.
[2] Krishna, H. and Kumar, K. (2011) Reliability Estimation in Lindley Distribution with Progressively Type II Right Censored Sample. Mathematics and Computers in Simulation, 82, 281-294.
https://doi.org/10.1016/j.matcom.2011.07.005
[3] 杨冬霞. Lindley分布参数的贝叶斯估计[D]: [硕士学位论文]. 乌鲁木齐: 新疆师范大学, 2020.
[4] 代莹. Lindley分布的统计分析[D]: [硕士学位论文]. 上海: 上海师范大学, 2018.
[5] 习长新, 刘华. 逐步II型删失下Lindley分布的参数估计[J]. 新余学院学报, 2017, 22(4): 24-26.
[6] 范梓淼, 周菊玲. NA样本下Lindley分布参数的经验Bayes检验[J]. 贵州师范大学学报(自然科学版), 2016, 34(2): 68-70.
https://doi.org/10.16614/j.cnki.issn1004-5570.2016.02.014
[7] 杜伟娟, 彭家龙, 李体政. Lindley分布参数的经验Bayes检验的收敛速度[J]. 统计与决策, 2012(21): 23-26.
https://doi.org/10.13546/j.cnki.tjyjc.2012.21.011
[8] 龙兵. Lindley分布中参数的区间估计和假设检验[J]. 广西民族大学学报(自然科学版), 2014, 20(1): 59-62.
https://doi.org/10.16177/j.cnki.gxmzzk.2014.01.003
[9] 何朝兵, 刘跃军, 刘华文. 左截断右删失数据下指数分布参数多变点的贝叶斯估计[J]. 西南师范大学学报(自然科学版), 2015, 40(1): 12-17.
https://doi.org/10.13718/j.cnki.xsxb.2015.01.003
[10] 沙雪云, 周菊玲, 董翠玲. Lomax分布形状参数变点的贝叶斯估计[J]. 淮阴师范学院学报(自然科学版), 2020, 19(4): 288-292.
https://doi.org/10.16119/j.cnki.issn1671-6876.2020.04.002
[11] 程静, 周菊玲. Weibull分布尺度参数变点的模型估计[J]. 河南科学, 2022, 40(3): 345-349.
[12] 程贝丽, 周菊玲. 对数伽玛分布变点模型的估计[J]. 淮阴师范学院学报(自然科学版), 2021, 20(2): 95-99.
https://doi.org/10.16119/j.cnki.issn1671-6876.2021.02.001