两个独立二项分布比例差的提升Beal区间估计
A Modified Beal Interval for the Difference between Two Independent Binomial Proportions
DOI: 10.12677/SA.2018.74046, PDF, HTML, XML, 下载: 855  浏览: 2,257  科研立项经费支持
作者: 吴延科*, 柴华金:广东海洋大学数学与计算机学院,广东 湛江
关键词: Beal区间二项比例比例差独立的Beal’s Interval Binomial Proportion Difference Independent
摘要: 本文对两个独立二项分布的比例差提出了一种提升Beal区间估计方法,这种方法具有较好的覆盖率和最小覆盖率,区间长度也比较短,并且,新方法使用的最优权值具有显式表达式,计算简单,增加的计算量很小。模拟结果和实例分析表明了这种方法具有良好的有效性和稳定性。
Abstract: This paper proposes a modified Beal interval for the difference between independent binomial proportions. The new method with the optimal weight has better coverage probabilities and shorter intervals than most of the often used ones. Most importantly, the optimal weight value has a simple non-iterative form, therefore there is no much additional computation compared with the existing methods. A real extreme case is analysed to show the claimed properties and practical usability.
文章引用:吴延科, 柴华金. 两个独立二项分布比例差的提升Beal区间估计[J]. 统计学与应用, 2018, 7(4): 400-406. https://doi.org/10.12677/SA.2018.74046

1. 研究背景

区间估计是统计推断的基本任务之一,很多常用的区间估计方法都是基于正态近似。令 X 1 , X 2 是两个独立的二项分布变量,分别服从二项分布 B ( n 1 , p 1 ) , B ( n 2 , p 2 ) 。两个二项分布的比例差定义为 θ = p 1 p 2 θ 的最大似然估计是 θ ^ = p ^ 1 p ^ 2 ,其中 p ^ 1 = X 1 p 1 , p ^ 2 = X 2 p 2 分别是 p 1 , p 2 的最大似然估计。给定 p 1 p 2 θ ^ 的方差是 v a r ( θ ^ ; p 1 , p 2 ) = 1 n 1 p 1 ( 1 p 1 ) + 1 n 2 p 2 ( 1 p 2 ) ,用 p ^ 1 , p ^ 2 分别替换 p 1 , p 2 得到著名的Wald区间

C I W a l d = θ ^ ± z α 2 1 n 1 p ^ 1 ( 1 p ^ 1 ) + 1 n 2 p ^ 2 ( 1 p ^ 2 )

其中 z α 2 是标准正态分布的 α 2 分位数。Fleiss [1] 对Wald区间做了一个连续校正,得到

C I W a l d , c c = θ ^ ± { z α 2 1 n 1 p ^ 1 ( 1 p ^ 1 ) + 1 n 2 p ^ 2 ( 1 p ^ 2 ) + 1 2 ( 1 n 1 + 1 n 2 ) } .

Mee [2] 使用 p 1 , p 2 的限制最大似然估计 p ˜ 1 , p ˜ 2 代替最大似然估计 p ^ 1 , p ^ 2 ,得到

C I M e e = θ ^ ± z α 2 1 n 1 p ˜ 1 ( 1 p ˜ 1 ) + 1 n 2 p ˜ 2 ( 1 p ˜ 2 ) .

Beal [3] 引入了一个讨厌参数 η = 1 2 ( p 1 + p 2 ) ,对 p 1 , p 2 重参数化得到 p 1 = η + θ 2 , p 2 = η θ 2 ,给定 η θ ,可以得到 θ ^ 的方差是 v a r ( θ ^ ; η , θ ) = u [ 4 η ( 1 η ) θ 2 ] + 2 v ( 1 2 η ) θ ,其中 u = 1 4 ( 1 n 1 + 1 n 2 ) , v = 1 4 ( 1 n 1 1 n 2 ) 。取 η 的一个估计 η ˜ ,求解 ( θ ^ θ ) 2 z α 2 2 v a r ( θ ^ ; η ˜ , θ ) 得到Beal区间

C I B e a l = θ * ± w ,

其中

θ * = θ ^ + z α / 2 2 v ( 1 2 η ˜ ) 1 + z α / 2 2 u ,

w = z α / 2 1 + z α / 2 2 u u [ 4 η ˜ ( 1 η ˜ ) θ ^ 2 ] + 2 v ( 1 2 η ˜ ) θ ^ + 4 z α / 2 2 u 2 η ˜ ( 1 η ˜ ) + z α / 2 2 v 2 ( 1 2 η ˜ ) 2 .

Beal [3] 使用贝叶斯方法得到 η ˜ = 1 2 ( X 1 + μ n 1 + 2 μ + X 2 + μ n 2 + 2 μ ) ,其中 μ 0 。Beal研究了不同 μ 值得到的区间的小样本行为后建议使用 μ = 0 μ = 1 2 ,这两个值对应的Beal区间分别又称为Haldane区间和Jeffreys-Perks区间。Roths & Tebbs [4] 发现,细心选择 μ 值可以提升Beal区间的表现,他们给出了 μ 值的最大似然估计和矩估计,使用这两个 μ 值的区间分别记为 C I B e a l M L E C I B e a l M O M

本文我们关注Beal区间中 η 值的非对称性问题,提出一种提升Beal区间。

2. 提升Beal区间

Newcomb [5] 通过大量的模拟计算发现,Haldane区间的覆盖率在实际中可以接近0,而Jeffreys-Perks区间虽然可以在一定程度上改善这种情况,但仍然不能彻底避免覆盖率过小的现象。基于此,我们需要改进Beal区间的表现。

r = μ 2 ( 1 n 1 + 2 μ + 1 n 2 + 2 μ ) , f i = n i n i + 2 μ , i = 1 , 2 (2.1)

其中 μ 0 ,则 η ˜ = 1 2 ( f 1 p ^ 1 + f 2 p ^ 2 ) + r 。对Haldane区间, μ = 0 ,对Jeffreys-Perks区间, μ = 1 2 。Beal [3] 取 η p 1 , p 2 的算术平均,但是 p 1 , p 2 η 的影响可能是不同的,因此,我们取

η λ = λ p 1 + ( 1 λ ) p 2 , λ [ 0 , 1 ]

作为讨厌参数,重参数化得到 p 1 = η λ + ( 1 λ ) θ , p 2 = η λ λ θ ,则

v a r ( θ ^ ; η λ , θ ) = [ η λ + ( 1 λ ) θ ] [ 1 η λ ( 1 λ ) θ ] n 1 + ( η λ λ θ ) ( 1 η λ + λ θ ) n 2 .

假设 η ˜ λ η λ 的一个估计,求解

( θ ^ θ ) 2 z α / 2 2 v a r ( θ ^ ; η ˜ λ , θ ) = 0 (2.2)

即得到以两个根为端点的的一个置信区间。经过繁琐的计算可以得到提升的Beal区间

其中

(2.3)

使用Beal [3] 的贝叶斯方法可以得到

(2.4)

的值影响区间的端点和中点,我们期望的均方误差(MSE)达到最小。容易计算得到的偏差和方差分别为

其中的定义见(2.1)式。最小化可以得到最优的

其中。实际中,使用替换可以得到可用的最优调节参数

3. 模拟

我们使用两个模拟试验验证提升Beal区间的效果,第一个用于检验覆盖率和最小覆盖率,第二个用于检验区间长度。作为对比,我们同时给出Wald方法、Mee方法和Beal方法(包含Roths & Tebbs [4] 改良的两种方法)的模拟结果。

3.1. 检验覆盖率

给定条件下,方法的覆盖率定义为,最小覆盖率定义为。取定,分别取,计算9种方法的覆盖率和最小覆盖率,结果见图1~图2表1

图1~图2表1可以看出,Mee方法和提升的Jeffreys-Perks方法具有较高的最小覆盖率。

3.2. 检验置信区间长度

我们来评估9种方法的平均区间长度。给定,平均区间长度定义为

其中表示区间长度。取定,分别取,取,计算9种方法的平均区间长度,结果见表2。我们发现,Wald、Haldane、Beal-MOM、Haldane M和Jeffreys-Perks M方法都具有相对较小的平均区间长度。结合3.1节的覆盖率和最小覆盖的结果,我们推荐使用Jeffreys-Perks M方法,即提升的Jeffreys-Perks方法。

4. 实例分析

我们使用Wallenstein [6] 的数据,这是一个有关种族歧视的法律案例,详情见原文。这里,。我们之所以选择这个案例,是因为这里的属于极端情况。判断一种区间估计方法的好坏,其中一个标准就是看这个方法能否恰当地处理这种极端数据。我们使用提升的

Figure 1. CP for nine methods, ,

图1. 九种方法的覆盖率,

Figure 2. CP for nine methods, ,

图2. 九种方法的覆盖率,

Beal方法估计比例差的95%和99%置信区间。作为对比,我们也给出前述几种方法的估计结果,见表3。我们发现,对于这种极端情况,除了Mee方法和提升的Beal方法,其它方法估计出的区间都超出了[−1,1]的合理范围,这种现象称为overshoot现象,而Mee方法和提升的Beal方法可以避免这种现象的发生。此外,Mee方法和提升的Haldane方法具有相同的估计结果,但是在3.2节的模拟中,Mee方法的平均区

Table 1. Min CP for nine methods

表1. 九种方法的最小覆盖率

Table 2. Mean confidence interval length for nine methods (,)

表2. 九种方法的平均置信区间长度(,)

Table 3. The estimated 95% and 99% confidence intervals for the selected data

表3. 实际数据的95%和99%置信区间

间长度比提升的Haldane方法要大。综上所述,实际中我们推荐使用Mee方法和我们提出的提升Jeffreys-Perks方法。

5. 结论

本文我们通过改良Beal区间中的讨厌参数的选取,提出了一种提升Beal区间方法,最优调节参数可以通过一个显式表达式给出,计算简单。实验模拟显示我们的方法具有大的覆盖率和最小覆盖率,平均区间长度也比较短。实际中,我们推荐使用Mee方法和我们提出的提升Jeffreys-Perks方法。

基金项目

本文为“广东海洋大学人文社会科学项目:二项抽样下两独立总体的比例差的统计推断”项目成果。

参考文献

[1] Fleise, J.L. (1981) Statistical Methods for Rates and Proportions. A Wiley Publication in Applied Statistics, 16(2), 326-327.
[2] Mee, R.W. (1984) Confidence Bounds for the Difference between Two Probabilities. Biometrics, 40, 1175-1176.
[3] Beal, S.L. (1987) Asymptotic Confidence Intervals for the Difference between Two Binomial Parameters for Use with Small Samples. Biometrics, 43, 941-950.
https://doi.org/10.2307/2531547
[4] Roths, S.A. and Tebbs, J.M. (2006) Revisiting Beal’s Confidence Intervals for the Difference of Two Binomial Proportions. Communications in Statistics-Theory and Methods, 35, 1593-1609.
https://doi.org/10.1080/03610920600683622
[5] Newcombe, R.G. (1998) Interval Estimation for the Difference between In-dependent Proportions: Comparison of Eleven Methods. Statistics in Medicine, 17, 873-890.
https://doi.org/10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I
[6] Wallenstein, S. (1997) A Non-Iterative Accurate Asymptotic Confidence Interval for the Difference between Two Proportions. Statistics in Medicine, 16, 1329-1336.
https://doi.org/10.1002/(SICI)1097-0258(19970630)16:12<1329::AID-SIM567>3.0.CO;2-I