1. 引言
方差分析是由英国统计学家R. A. Fisher在20世纪20年代提出的,用于对样本均值的显著性检验 [1] - [6]。通过推断各观测变量总体均值在控制变量的不同水平下是否存在显著差异,进而分析控制变量对观测变量是否存在显著的影响 [1]。
方差分析包括单因素方差分析与多因素方差分析。多因素方差分析中的控制变量在两个或两个以上,主要研究目的是分析多个控制变量的主效应和交互作用对实验结果是否产生显著的影响。王苗苗基于当下多元方差分析的研究现状给出有无交互作用的双因素方差分析模型 [7]。戴金辉与韩存在给出有交互作用双因素方差分析模型理论的基础上,通过例题说明方差分析有无交互作用在实验中的影响,使得方差分析理论更加成熟 [8]。在方差分析中,样本必须满足独立、正态、方差齐性要求。教材 [2] [3] [4] [5] [6] 只给出了单因素及两因素方差分析的基本理论,但在实际应用中,试验结果的影响因素往往不止一个。刘晓华在双因素方差分析的基础上给出了三因素方差分析模型的数学推导 [9]。黄伯强、李启才将带有交互效应的双因素方差分析进行了线性回归模型重构,证明了方差分析因素显著性F检验与回归模型的显著性检验是等价的 [10]。戴金辉与代金辉将带有交互效应的双因素方差分析模型应用到跳水运动的成绩管理,分析运动员的动作和裁判员对运动员的主观因素对跳水运动员成绩的影响 [11]。
正态性检验是方差分析的一个重要条件,Khatun Nasrin证明了样本的正态性是统计推断中一个关键的假设条件,结合图形和检验方法,可以提高对数据正态性的判断 [12]。Michael,JR给出了Q-Q图与P-P图判定正态性的原理 [13]。Philip Pallmann等人提出了针对多个样本统计模型方差齐性的验证方法,发现Levene检验是作为检测多个组之间比例差异的有效方法,并验证了该方法的有效性 [14]。
众所周知,外部因素是影响癌症发病的主要诱因,如生活方式、饮食习惯、环境污染等,因此,分析多重因素对癌症患病风险的影响具有重要的社会价值 [15]。本文将双因素方差分析模型推广到具有交互效应的四因素方差分析模型,并通过模型分析地域、性别、吸烟、离子辐射是否对癌症患病风险具有显著影响。
2. 四因素方差分析模型
假定影响实验结果的因素有四个,记为A,B,C,D。其中因子A取r个水平,因子B取s个水平,因子C取t个水平,因子D取u个水平,分别记为
,
,
,
,在水平组合
下样本相互独立且服从正态分布
。
令
表示一般均值;
表示在A的第i个水平下均值;
表示在B的第j个水平下均值;
表示在C的第k个水平下均值;
表示在D的第l个水平下均值;
表示在A的第i个水平和B的第j个水平组合下均值;
表示在A的第i个水平与C的第k个水平组合下均值;
表示在A的第i个水平与D的第l个水平组合下均值;
表示在B的第j个水平与C的第k个水平组合下均值;
表示在B的第j个水平与D的第l个水平组合下均值;
表示在C的第k个水平与D的第l个水平组合下均值;
表示在A的第i个水平、B的第j个水平、C的第k个水平组合下均值;
表示在A的第i个水平、B的第j个水平、D的第l个水平组合下均值;
表示在A的第i个水平、C的第k个水平、D的第l个水平组合下均值;
表示在B的第j个水平、C的第k个水平、D的第l个水平组合下均值。
其中,在上述定义中,
;
;
;
。
则各因子主效应和交互效应定义为:
为因子A的主效应;
为因子B的主效应;
为因子C的主效应;
为因子D的主效应;
为因子A和B的交互效应;
为因子A和C的交互效应;
为因子A和D的交互效应;
为因子B和C的交互效应;
为因子B和D的交互效应;
为因子C和D的交互效应;
为因子A,B,C的交互效应;
为因子A,B,D的交互效应;
为因子A,C,D的交互效应;
为因子B,C,D的交互效应;
为因子A,B,C,D的交互效应。
因此,四因素方差分析模型为:
在该模型下分析每个因子的主效应、任意两因子交互效应、三因子的交互效应以及四因子的交互效应对实验结果是否存在显著影响,需进行如下15个假设检验:
;
;
;
;
;
;
;
;
;
;
;
;
;
;
。
3. 模型的分析
基于方差分析中平方和分解的思想,四因素方差分析模型中各偏差平方和分解如下:
,
,
,
,
,
,
,
,
其中,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
总的平方和分解如下:
方差分析模型的检验分析如表1所示。
Table 1. Analysis of variance of four variables with interaction effect
表1. 具有交互效应的四元方差分析表
当
时,拒绝原假设,说明因素对实验结果有显著影响。
4. 实证分析
选取1958~2009年日本广岛和长崎原子弹爆炸0~80岁患者癌症发病率数据为研究对象,分析患者所居城市(city)、性别(sex)、离子辐射剂量(dose)、吸烟时长(smoking)对癌症发病率(incidence)的影响,具体数据见表2。
Table 2. Incidence rate of all solid cancers under different level combinations
表2. 不同水平组合下的所有实体癌症的发病率数据
城市分为广岛和长崎,1代表广岛,2代表长崎;性别1代表男性,2代表女性;离子辐射剂量按照是否大于4 Gy的标准进行分类,1代表剂量大于等于4 Gy,2代表剂量小于4 Gy;吸烟时长按照吸烟年限进行分类,将吸烟时长分为,1 (从不吸烟),2 (吸烟0~20年)以及3 (大于20年)分为三个水平。
对表2数据进行四因素方差分析,验证样本的正态性 [16] [17] [18]、独立性以及方差齐性 [19] [20] [21],结果表明原始数据因变量incidence不服从正态分布和方差齐性。因此,取
作为新的因变量进行方差分析,利用SPSS 22.0对变换后的数据进行正态性与方差齐性检验,其正态性检验结果如表3、图1和图2所示,方差齐性检验结果如表4所示。
由表3可知,
,故这组数据满足正态分布,且P-P图与Q-Q图表明变换后的数据符合正态分布。
Figure 1. P-P diagram of normality test
图1. 正态性检验P-P图
Figure 2. Q-Q diagram of normality test
图2. 正态性检验Q-Q图
Table 4. Test table for homogeneity of variance
表4. 方差齐性检验表
由表4可知,在显著水平取0.05时,城市、性别、离子辐射剂量、吸烟时长四个因素p值均大于0.05,认为数据满足方差齐性检验。因此,变换后的数据满足方差分析条件。
对变换后的数据进行方差分析,通过R编程 [22] [23] [24] 得到结果如表5所示。
由表5可知,在显著水平取0.05时,离子辐射剂量和吸烟时长对癌症发病风险具有显著性影响,城市和性别对癌症患病风险并没有显著性的影响,并且四个因素不存在显著性的交互效应,因此,研究癌症风险应该关注离子辐射剂量和吸烟时长等其他因素与癌症发病机制的关系。
5. 结论
本文在两因素方差分析模型基础上给出了具有交互作用的四因素方差分析模型的理论推导,并将其应用到具体实例中。在应用多因素方差分析模型时,可以通过对数据做变换来达到正态性、方差齐性的要求。
对癌症发病率数据的方差分析结果表明,吸烟时长和离子辐射剂量对癌症的患病风险具有显著性影响,地域和性别并没有显示对癌症风险具有显著性影响,因此,研究癌症的发病风险应该关注离子辐射和吸烟等其他因素在癌症发病机理中所起的作用,这将需要更具体的生物数学模型来验证,这也将是我们下一步的工作。
基金项目
陕西省教育厅专项科研计划项目,项目名称:多重因素对肺癌发病的影响与数据分析,项目编号:19JK0359。