双边数据风险差的一致性检验
Homogeneity Test of Risk Difference for Bilateral Data
DOI: 10.12677/aam.2024.135184, PDF, HTML, XML, 下载: 71  浏览: 143 
作者: 张延欣:南京邮电大学理学院,江苏 南京
关键词: 双边数据一致性检验第一类错误率Bilateral Data Homogeneity Test Type I Error Rate
摘要: 本文探讨了多组双边数据风险差的一致性假设检验问题及其检验过程,在一致性检验中,当样本量较小时,Wald统计量和Score统计量的第一类错误率接近于预设的显著性水平0.05,然而似然比统计量显示出了比较膨胀的第一类错误率。当样本量较大时,Score统计量检验效果更佳。随着样本量的增加,所有统计量检验效果趋于稳健。因此,在评估第一类错误率性能时,对于多组双边数据,建议采用统计量Score统计量进行风险差的一致性检验。
Abstract: This article explores the homogeneity testing of risk difference for multiple sets of bilateral data and its testing process. In the homogeneity test, when the sample size is small, the Type I error rates of Wald statistic and Score statistic are close to the preset significance level of 0.05, while Likelihood ratio statistic exhibits a relatively inflated Type I error rate. However, when the sample size is larger, the testing effect of Score statistic is better. As the sample size increases, the testing effects of all statistical measures tend to become more robust. Therefore, when evaluating the performance of Type I error rates for multiple sets of bilateral data, it is recommended to adopt Score statistic for the homogeneity test of risk difference.
文章引用:张延欣. 双边数据风险差的一致性检验[J]. 应用数学进展, 2024, 13(5): 1964-1970. https://doi.org/10.12677/aam.2024.135184

1. 引言

在医学临床试验中,若研究对象是患者身体成对器官,如耳朵、眼睛等,便会产生相关双边数据,研究者通常将器官患病称之为出现响应。相比较于肝脏、心脏这些单一器官,成对器官产生的双边数据更加复杂。Morris [1] 发现对双边配对数据的统计检验如果忽略了内相关性的存在,可能会导致检验具有夸大的显著性水平。针对双边数据的研究,Ronser [2] 提出了一个假设当一侧器官出现响应时,另外一侧器官也出现响应的条件概率与无条件概率成正比的模型。在此模型基础上,研究者提出了Donner模型 [3] 和Dallal模型 [4] 等适用于研究双边数据的模型。一般来说,风险差经常被用于衡量分组双边数据组间响应率的差异性 [5] 。Zhang等人 [6] 认为,检测风险差一致性是临床试验中一个至关重要的问题。Lui等 [7] 研究了在缺失样本数据中两组双侧数据的风险差的一致性检验问题。Shen等 [8] 研究并推导了两组双边数据风险差一致性检验的三种检验方法。通常而言,鉴于对照组变量的差异性,多个观察组的设置较为常见。因此,在涉及相关配对的双边数据研究中,考虑包含多个观察组和一个对照组的情境是极具意义的 [9] 。综上所述,双边数据风险差的一致性假设检验问题具有重要的研究价值。本文不仅关注理论层面的探讨,更致力于解决实际应用中的问题。通过对双边数据风险差的一致性进行有效检验,更准确地评估风险差异,为决策提供科学依据。因此,本研究的开展具有重要的理论意义和实际应用价值。

2. Dallal模型

m i 为第i ( i = 1 , 2 , , g )组中的患者数量, m h i 为第i组中有h ( h = 0 , 1 , 2 )个响应的患者数量, p h i 为第i组中无、单边及双边响应的概率,其中 m i = m 0 i + m 1 i + m 2 i p 0 i + p 1 i + p 2 i = 1 ,具体数据结构如表1所示。

Table 1. Data structure

表1. 数据结构

X i j k 是第i组中第j( j = 1 , , m i )个患者的第k ( k = 1 , 2 )只器官响应情况的指标,若无响应,则记 X i j k = 0 ,否则 X i j k = 1 。Dallal模型中包含两个假设:1) 第i组患者一侧器官有响应的概率为 P ( X i j k = 1 ) = λ i ( 0 λ i 1 ) ;2) 患者一侧器官有响应,另一侧器官也有响应的概率为 P ( X i j k = 1 | X i j ( 3 k ) = 1 ) = γ i 。基于假设,可计算出第i组中无、单边及双边响应的概率分别为:

p 0 i = 1 ( 2 γ i ) λ i , p 1 i = 2 ( 1 γ i ) λ i , p 2 i = γ i λ i .

3. 风险差的一致性检验

假设第一组为对照组,其余组实验组,那么风险差 Δ i = λ i λ 1 ( i = 2 , 3 , , g ) 。一致性检验考虑的问题是各实验组与对照组之间的风险差是否相等,即

如果不能否定原假设H0,则认为各实验组与对照组之间的响应率无显著性差异。

3.1. Ha和H0下的极大似然估计

M = ( m 1 , m 2 , , m g ) λ = ( λ 1 , λ 2 , , λ g ) γ = ( γ 1 , γ 2 , , γ g ) ,根据数据结构,Ha下的对数似然函数可以写为:

l 11 ( λ , γ | M ) = i = 1 g ( m 0 i log [ 1 + λ i ( γ i 2 ) ] + m 1 i log [ 2 λ i ( 1 γ i ) ] + m 2 i log λ i γ i ) + log C (1)

其中C为一个常数,设 λ i , γ i ( i = 1 , 2 , , g ) Δ i ( i = 2 , 3 , , g ) 在Ha下的极大似然估计分别为 λ ^ i , γ ^ i Δ ^ i ,则 λ ^ i γ ^ i 的值是偏导方程组 l 11 / λ i = 0 , l 11 / γ i = 0 的解,求解方程组可得出 λ ^ i = ( m 1 i + 2 m 2 i ) / 2 m i γ ^ i = 2 m 2 i / ( m 1 i + 2 m 2 i ) 。又因为风险差 Δ i = λ i λ 1 ,故风险差的估计值 Δ ^ i = ( m 1 i + m 2 i ) / 2 m i ( m 11 + m 21 ) / 2 m 1 。在原假设H0条件下,有 λ i = λ 1 + Δ ( i = 2 , 3 , , g ) ,则对数似然函数l11等价于:

l 10 ( λ 1 , Δ , γ | M ) = i = 2 g ( m 0 i log [ 1 + ( λ 1 + Δ ) ( γ i 2 ) ] + m 1 i log [ 2 ( λ 1 + Δ ) ( 1 γ i ) ] + m 2 i log ( λ 1 + Δ ) γ i ) + m 01 log [ 1 + λ 1 ( γ 1 2 ) ] + m 11 log [ 2 λ 1 ( 1 γ 1 ) ] + m 21 log λ 1 γ 1 + log C , (2)

λ 1 , γ i Δ 在H0下极大似然估计分别为 λ ˜ 1 , γ ˜ i Δ ˜ 。令l10关于 λ 1 , γ i Δ 的偏导均为0,并求解方程组。然而上述方程组没有精确解,故选用费舍尔评分迭代算法计算 λ ˜ 1 , γ ˜ i Δ 的近似值,算法过程可简单描述为以下4步:

1) 定义各参数的初始值为:

λ 1 ( 0 ) = λ ^ 1 , γ i ( 0 ) = γ ^ i , Δ ( 0 ) = 1 g 1 i = 2 g Δ i ,

2) 第(t + 1)次迭代, Δ ˜ ( t + 1 ) 的估计值更新为:

Δ ( t + 1 ) = Δ ( t ) ( 2 l 10 Δ 2 ) 1 l 10 Δ ,

3) 第(t + 1)次迭代, λ 1 ( t + 1 ) γ i ( t + 1 ) 的估计值更新为:

[ λ 1 ( t + 1 ) γ 1 ( t + 1 ) γ g ( t + 1 ) ] = [ λ 1 ( t ) γ 1 ( t ) γ g ( t ) ] + I ( λ 1 ( t ) , γ 1 ( t ) , , γ g ( t ) ) 1 [ l 10 λ 1 l 10 γ 1 l 10 γ g ] | Δ = Δ ( t + 1 )

其中I是费舍尔信息矩阵。

4) 重复步骤1)~3),直到所有参数的估计值趋于收敛。

3.2. 检验统计量

构造以下三个常见的检验统计量:似然比检验统计量、Wald检验统计量和Score检验统计量。

3.2.1. 似然比统计量

λ ^ = ( λ ^ 1 , λ ^ 2 , , λ ^ g ) γ ^ = ( γ ^ 1 , γ ^ 2 , , γ ^ g ) λ ˜ = ( λ ˜ 1 , λ ˜ 2 , , λ ˜ g ) γ ˜ = ( γ ˜ 1 , γ ˜ 2 , , γ ˜ g ) 。为了检验假设H0,构造似然比统计量 T L H 为:

T L = 2 [ l 11 ( λ ^ , γ ^ | M ) l 10 ( λ ˜ 1 , Δ ˜ , γ ˜ | M ) ]

原假设H0下, T L H 渐近服从自由度为g-2的 X 2 分布。

3.2.2. Wald统计量

β 1 = ( λ 1 , Δ 2 , Δ 3 , , Δ g , γ 1 , γ 2 , , γ g ) 1 × 2 g ,设 β ^ 1 β 1 在Ha下的全局极大似然估计。假设H0等价于 Δ 2 Δ 3 = Δ 3 Δ 4 = = Δ g 1 Δ g ,即 C 1 β 1 T = 0 ,其中

C 1 = [ 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 ] ( g 2 ) × 2 g

构造Wald检验统计量 T W H 为:

T W H = ( β 1 C 1 T ) ( C 1 P 1 C 1 T ) 1 ( C 1 T β 1 T ) | β 1 = β ^ 1 ,

其中P是费舍尔信息矩阵,原假设H0下, T W H 渐近服从自由度为g-2的 X 2 分布。

3.2.3. Score统计量

β 2 = ( λ 1 , Δ , γ 1 , , γ g ) 1 × ( g + 2 ) ,设 β ˜ 2 β 2 在H0下的极大似然估计。定义Score检验统计量 T S 为:

T S H = U 1 P 1 U 1 T | β 2 = β ˜ 2 ,

其中 U 1 = ( l 10 λ 1 , l 10 Δ 2 , l 10 Δ 3 , , l 10 Δ g , l 10 γ 1 , l 10 γ 2 , , l 10 γ g ) 1 × 2 g ,P是费舍尔信息矩阵,原假设H0下, T S H 渐近服从自由度为g-2的 X 2 分布。

4. 数值模拟研究

在Monte-Carlo模拟中,设置每组的样本数量为 m = 50 , 100 , 150 ,组数 g = 3 , 5 。记 λ = ( λ 1 , λ 2 , , λ g ) γ = ( γ 1 , γ 2 , , γ g ) ,在 λ i γ i ( i = 1 , 2 , , g ) 的选择上,必须确保响应率 p h i 的取值在0.1到0.9之间,否则可能会导致出现数据为0的情况,从而产生不准确的结果,具体参数设置如表2所示。

为了评估三个检验统计量在检验中的性能,计算并比较了其在不同参数设置下的第一类错误率。在表2的每组参数配置下,随机模拟生成10,000个样本,并统计其中检验p值小于显著性水平的次数,通过拒绝次数除以10,000,计算出经验第一类错误率。如果检验的第一类错误率小于0.04或大于0.06,则意味检验表现过于保守或膨胀,否则是稳健的 [10] 。

Table 2. Parameter configuration

表2. 参数配置

在原假设H0条件下,计算上述统计量在一致性检验中犯第一类错误的概率,取 Δ = 0.05 , 0.075 , 0.1 Δ 2 = Δ 3 = = Δ g = Δ 。在表2中的每个参数配置下随机生成10,000个样本,通过计算在显著性水平 α = 0.05 下的拒绝H0的比例求得第一类错误率,结果如表3表4所示。结果表明, T W H T S H 的第一类错误率接近于显著性水平,而 T L H 的第一类错误率在m = 50时表现非常膨胀。同时可以发现,一致性检验统计量 T K H ( K = L , W , S ) 的第一类错误率均随着样本量的增大而趋于稳健。

此外,在H0假设下,取 m = 50 , 100 , 150 ,在随机生成1000组参数 ( λ , γ ) 。对于每种参数设置,每个检验重复10,000次,然后计算第一类错误率。通过图1中的一组箱线图,比较了 m = 50 , 100 , 150 情况下,上述统计量在第一类错误率方面的表现。结果表明:在一致性检验中,当m = 50时, T W H T S H 的第一类错误率接近于显著性水平0.05,而 T L H 则产生了较为膨胀的第一类错误率。当样本量数较大时, T S H 检验效果更好。所有统计量 T K H ( K = L , W , S ) 随着样本量的增加也更加稳健。因此,基于三个统计量在第一类错误率的表现,对于多组相关配对数据,推荐构建统计量 T S H 进行风险差的一致性检验。

Table 3. Type I Error Rate of Each Statistic when g = 3

表3. g = 3时各统计量第一类错误率

Table 4. Type I error rate of each statistic when g = 5

表4. g = 5时各统计量的第一类错误率

Figure 1. Box Plot of the Type I Error Rate of Each Statistic under 1000 Parameters

图1. 1000个参数下各统计量第一错误率箱线图

5. 结论

本文提出了双边数据风险差的一致性假设检验问题及其检验过程,模拟研究发现,当样本量较小时,Wald统计量和Score统计量优于似然比统计量。当样本量较大时,Score统计量检验效果更好。因此,针对第一类错误率性能的考量,对于多组相关配对数据,推荐构建Score统计量进行风险差的一致性检验。本研究还具有广阔的创新空间,未来可以深入研究其他统计量在风险差一致性检验中的表现,以寻找更优的检验方法。

参考文献

[1] Morris, R.W. (1993) Bilateral Procedures in Randomised Controlled Trials. The Journal of Bone and Joint Surgery, 75, 675-676.
https://doi.org/10.1302/0301-620X.75B5.8376419
[2] Rosner, B. (1982) Statistical Methods in Ophthalmology: An Adjustment for the Intraclass Correlation between Eyes. Biometrics, 38, 105-114.
https://doi.org/10.2307/2530293
[3] Donner, A. (1989) Statistical Methods in Opthalmology: An Adjusted Chi-Square Approach. Biometrics, 45, 605-611.
https://doi.org/10.2307/2531501
[4] Dallal, G.E. (1988) Paired Bernoulli Trials. Biometrics, 44, 253-257.
https://doi.org/10.2307/2531913
[5] Lipsitz, S.R., Dear, K.B.G. and Laird, N.M., et al. (1998) Tests for Homogeneity of the Risk Difference When Data Are Sparse. Biometrics, 54, 148-160.
https://doi.org/10.2307/2534003
[6] Zhang, L., Yang, H. and Cho, I. (2009) Test Homogeneity of Risk Difference across Subgroups in Clinical Trials. Journal of Biopharmaceutical Statistics, 19, 67-76.
https://doi.org/10.1080/10543400802527874
[7] Lui, K.J. (2005) A Simple Test of the Homogeneity of Risk Difference in Sparse Data: An Application to a Multicenter Study. Biometrical Journal, 47, 654-661.
https://doi.org/10.1002/bimj.200410150
[8] Shen, X. and Ma, C.X. (2018) Testing Homogeneity of Difference of Two Proportions for Stratified Correlated Paired Binary Data. Journal of Applied Statistics, 45, 1410-1425.
https://doi.org/10.1080/02664763.2017.1371679
[9] Kropf, S., Hothorn, L.A. and Lauter, J. (1997) Multivariate Many-to-One Procedures with Applications to Preclinical Trials. Drug Information Association, 31, 433-447.
https://doi.org/10.1177/009286159703100214
[10] Tang, M.L., Tang, N.S. and Ronser, B. (2006) Statistical Inference for Correlated Data in Ophthalmologic Studies. Statistics in Medicine, 25, 2771-2783.
https://doi.org/10.1002/sim.2425