四因素方差分析模型构建及癌症风险评估
Construction of Four Factor Analysis of Variance (ANOVA) Model and Cancer Risk Assessment
DOI: 10.12677/AAM.2021.106225, PDF, HTML, XML,  被引量 下载: 273  浏览: 512  科研立项经费支持
作者: 邵梦瑶, 贺兴时, 李玲玲:西安工程大学理学院,陕西 西安
关键词: 四因素方差分析离子辐射吸烟癌症风险Four Factor Analysis of Variance Ion Radiation Smoking Cancer Risk
摘要: 在实际问题中,往往需要分析多重因素对实验结果的影响,方差分析是解决此类问题的一个重要工具。然而,对于方差分析的理论目前集中在单因素方差分析和两因素方差分析。为此,基于两因素方差分析模型给出带有交互效应的四因素方差分析模型的理论推导,并应用其来分析地域、性别、吸烟、离子辐射对癌症患病风险的影响。本文在两因素方差分析模型基础上给出了具有交互作用的四因素方差分析模型的理论推导,并将其应用到具体实例中。在应用多因素方差分析模型时,可以通过对数据做变换来达到正态性、方差齐性的要求。对癌症发病率数据的方差分析结果表明,吸烟时长和离子辐射剂量对癌症的患病风险具有显著性影响,地域和性别并没有显示对癌症风险具有显著性影响。
Abstract: In practical problems, it is often necessary to analyze the influence of multiple factors on the experimental results. Analysis of variance is an important tool to solve the problems. However, the theory of variance analysis (ANOVA) focuses on one-way analysis of variance and two-way analysis of variance (ANOVA). Therefore, based on the two factor analysis of variance (ANOVA) model, this paper gives the theoretical derivation of the four factor analysis of variance (ANOVA) model with interaction effect, and applies it to analyze the influence of region, gender, smoking and ion radiation on cancer risk. Based on the two factor analysis of variance model, this paper gives the theoretical derivation of the interactive four factor analysis of variance model and applies it to specific examples. When applying a multi-factor analysis of variance model, the data can be transformed to meet the requirements of normality and homogeneity of variance. The results of variance analysis of cancer incidence data show that smoking duration and ionizing radiation dose have a significant impact on the risk of cancer, region and gender do not show a significant impact on cancer risk.
文章引用:邵梦瑶, 贺兴时, 李玲玲. 四因素方差分析模型构建及癌症风险评估[J]. 应用数学进展, 2021, 10(6): 2155-2165. https://doi.org/10.12677/AAM.2021.106225

1. 引言

方差分析是由英国统计学家R. A. Fisher在20世纪20年代提出的,用于对样本均值的显著性检验 [1] - [6]。通过推断各观测变量总体均值在控制变量的不同水平下是否存在显著差异,进而分析控制变量对观测变量是否存在显著的影响 [1]。

方差分析包括单因素方差分析与多因素方差分析。多因素方差分析中的控制变量在两个或两个以上,主要研究目的是分析多个控制变量的主效应和交互作用对实验结果是否产生显著的影响。王苗苗基于当下多元方差分析的研究现状给出有无交互作用的双因素方差分析模型 [7]。戴金辉与韩存在给出有交互作用双因素方差分析模型理论的基础上,通过例题说明方差分析有无交互作用在实验中的影响,使得方差分析理论更加成熟 [8]。在方差分析中,样本必须满足独立、正态、方差齐性要求。教材 [2] [3] [4] [5] [6] 只给出了单因素及两因素方差分析的基本理论,但在实际应用中,试验结果的影响因素往往不止一个。刘晓华在双因素方差分析的基础上给出了三因素方差分析模型的数学推导 [9]。黄伯强、李启才将带有交互效应的双因素方差分析进行了线性回归模型重构,证明了方差分析因素显著性F检验与回归模型的显著性检验是等价的 [10]。戴金辉与代金辉将带有交互效应的双因素方差分析模型应用到跳水运动的成绩管理,分析运动员的动作和裁判员对运动员的主观因素对跳水运动员成绩的影响 [11]。

正态性检验是方差分析的一个重要条件,Khatun Nasrin证明了样本的正态性是统计推断中一个关键的假设条件,结合图形和检验方法,可以提高对数据正态性的判断 [12]。Michael,JR给出了Q-Q图与P-P图判定正态性的原理 [13]。Philip Pallmann等人提出了针对多个样本统计模型方差齐性的验证方法,发现Levene检验是作为检测多个组之间比例差异的有效方法,并验证了该方法的有效性 [14]。

众所周知,外部因素是影响癌症发病的主要诱因,如生活方式、饮食习惯、环境污染等,因此,分析多重因素对癌症患病风险的影响具有重要的社会价值 [15]。本文将双因素方差分析模型推广到具有交互效应的四因素方差分析模型,并通过模型分析地域、性别、吸烟、离子辐射是否对癌症患病风险具有显著影响。

2. 四因素方差分析模型

假定影响实验结果的因素有四个,记为A,B,C,D。其中因子A取r个水平,因子B取s个水平,因子C取t个水平,因子D取u个水平,分别记为 A 1 , A 2 , , A r B 1 , B 2 , , B s C 1 , C 2 , , C t D 1 , D 2 , , D u ,在水平组合 ( A i , B j , C k , D l ) 下样本相互独立且服从正态分布 y i j k l ~ N ( μ i j k l , σ 2 )

μ = 1 r s t u i = 1 r j = 1 s k = 1 t l = 1 u μ i j k l 表示一般均值;

μ i = 1 s t u j = 1 s k = 1 t l = 1 u μ i j k l 表示在A的第i个水平下均值;

μ j = 1 r t u i = 1 r k = 1 t l = 1 u μ i j k l 表示在B的第j个水平下均值;

μ k = 1 r s u i = 1 r j = 1 s l = 1 u μ i j k l 表示在C的第k个水平下均值;

μ l = 1 r s t i = 1 r j = 1 s k = 1 t μ i j k l 表示在D的第l个水平下均值;

μ i j = 1 t u k = 1 t l = 1 u μ i j k l 表示在A的第i个水平和B的第j个水平组合下均值;

μ i k = 1 s u j = 1 s l = 1 u μ i j k l 表示在A的第i个水平与C的第k个水平组合下均值;

μ i l = 1 s t j = 1 s k = 1 t μ i j k l 表示在A的第i个水平与D的第l个水平组合下均值;

μ j k = 1 r u i = 1 r l = 1 u μ i j k l 表示在B的第j个水平与C的第k个水平组合下均值;

μ j l = 1 r t i = 1 r k = 1 t μ i j k l 表示在B的第j个水平与D的第l个水平组合下均值;

μ k l = 1 r s i = 1 r j = 1 s μ i j k l 表示在C的第k个水平与D的第l个水平组合下均值;

μ i j k = 1 u l = 1 u μ i j k l 表示在A的第i个水平、B的第j个水平、C的第k个水平组合下均值;

μ i j l = 1 t k = 1 t μ i j k l 表示在A的第i个水平、B的第j个水平、D的第l个水平组合下均值;

μ i k l = 1 s j = 1 s μ i j k l 表示在A的第i个水平、C的第k个水平、D的第l个水平组合下均值;

μ j k l = 1 r i = 1 r μ i j k l 表示在B的第j个水平、C的第k个水平、D的第l个水平组合下均值。

其中,在上述定义中, i = 1 , 2 , , r j = 1 , 2 , , s k = 1 , 2 , , t l = 1 , 2 , , u

则各因子主效应和交互效应定义为:

α i = μ i μ 为因子A的主效应; β j = μ j μ 为因子B的主效应;

γ k = μ k μ 为因子C的主效应; θ l = μ l μ 为因子D的主效应;

η i j = μ i j μ α i β j 为因子A和B的交互效应;

η i k = μ i k μ α i γ k 为因子A和C的交互效应;

η i l = μ i l μ α i θ l 为因子A和D的交互效应;

η j k = μ j k μ β j γ k 为因子B和C的交互效应;

η j l = μ j l μ β j θ l 为因子B和D的交互效应;

η k l = μ k l μ γ k θ l 为因子C和D的交互效应;

η i j k = μ i j k ( μ i j μ i ) ( μ j k μ j ) ( μ i k μ k ) μ 为因子A,B,C的交互效应;

η i j l = μ i j l ( μ i j μ i ) ( μ i l μ l ) ( μ j l μ j ) μ 为因子A,B,D的交互效应;

η i k l = μ i k l ( μ i k μ i ) ( μ i l μ l ) ( μ k l μ k ) μ 为因子A,C,D的交互效应;

η j k l = μ j k l ( μ j k μ j ) ( μ j l μ l ) ( μ k l μ k ) μ 为因子B,C,D的交互效应;

η i j k l = μ i j k l + μ ( μ i j k μ i j + μ i ) ( μ i j l μ i l + μ j ) ( μ i k l μ i k μ k l + μ k ) ( μ j k l μ j k μ j l + μ l )

为因子A,B,C,D的交互效应。

因此,四因素方差分析模型为:

{ y i j k l w = μ + α i + β j + γ k + θ l + η i j + η i k + η i l + η j k + η j l + η k l + η i j k + η i j l + η i k l + η j k l + η i j k l + ε i j k l w i = 1 r α i = 0 , j = 1 s β j = 0 , k = 1 t γ k = 0 , l = 1 u θ l = 0 i = 1 r η i j = j = 1 s η i j = 0 , i = 1 r η i k = k = 1 t η i k = 0 , i = 1 r η i l = l = 1 u η i l = 0 , j = 1 s η j k = k = 1 t η j k = 0 , j = 1 s η j l = l = 1 u η j l = 0 , k = 1 t η k l = l = 1 u η k l = 0 i = 1 r η i j k = j = 1 s η i j k = k = 1 t η i j k = 0 , i = 1 r η i j l = j = 1 s η i j l = l = 1 u η i j l = 0 , i = 1 r η i k l = k = 1 t η i k l = l = 1 u η i k l , j = 1 s η j k l = k = 1 t η j k l = l = 1 u η j k l i = 1 r η i j k l = j = 1 s η i j k l = k = 1 t η i j k l = l = 1 u η i j k l ε i j k l w N ( 0 , σ 2 ) i = 1 , 2 , , r , j = 1 , 2 , , s , k = 1 , 2 , , t , l = 1 , 2 , , u , w = 1 , 2 , , m

在该模型下分析每个因子的主效应、任意两因子交互效应、三因子的交互效应以及四因子的交互效应对实验结果是否存在显著影响,需进行如下15个假设检验:

H O A : α i = 0 , i = 1 , 2 , , r

H O B : β j = 0 , j = 1 , 2 , , s

H O C : γ k = 0 , k = 1 , 2 , , t

H O D : θ l = 0 , l = 1 , 2 , , u

H O A B : i , j , η i j = 0

H O A C : i , k , η i k = 0

H O A D : i , l , η i l = 0

H O B C : j , k , η j k = 0

H O B D : j , l , η j l = 0

H O C D : k , l , η k l = 0

H O A B C : i , j , k , η i j k = 0

H O A B D : i , j , l , η i j l = 0

H O A C D : i , k , l , η i k l = 0

H O B C D : j , k , l , η j k l = 0

H O A B C D : i , j , k , l , η i j k l = 0

3. 模型的分析

基于方差分析中平方和分解的思想,四因素方差分析模型中各偏差平方和分解如下:

S E = i = 1 r j = 1 s k = 1 t l = 1 u w = 1 m ( y i j k l w y i j k l ¯ ) 2 S A = s t u m i = 1 r ( y i ¯ y ¯ ) 2 S B = r t u m j = 1 s ( y j ¯ y ¯ ) 2

S C = r s u m k = 1 t ( y k ¯ y ¯ ) 2 S D = r s t m l = 1 u ( y l ¯ y ¯ ) 2

S A B = t u m i = 1 r j = 1 s ( y i j ¯ y i ¯ y j ¯ + y ¯ ) 2 S A C = s u m i = 1 r k = 1 t ( y i k ¯ y i ¯ y k ¯ + y ¯ ) 2

S A D = s t m i = 1 r l = 1 u ( y i l ¯ y i ¯ y l ¯ + y ¯ ) 2 S B C = r u m j = 1 s k = 1 t ( y j k ¯ y j ¯ y k ¯ + y ¯ ) 2

S B D = r t m j = 1 s l = 1 u ( y j l ¯ y j ¯ y l ¯ + y ¯ ) 2 S C D = r s m k = 1 t l = 1 u ( y k l ¯ y k ¯ y l ¯ + y ¯ ) 2

S A B C = u m i = 1 r j = 1 s k = 1 t ( y i j k ¯ y i j ¯ y i k ¯ y j k ¯ + y i ¯ + y j ¯ + y k ¯ y ¯ ) 2

S A B D = t m i = 1 r j = 1 s l = 1 u ( y i j l ¯ y i j ¯ y i l ¯ y j l ¯ + y i ¯ + y j ¯ + y l ¯ y ¯ ) 2

S A C D = s m i = 1 r k = 1 t l = 1 u ( y i k l ¯ y i k ¯ y i l ¯ y k l ¯ + y i ¯ + y k ¯ + y l ¯ y ¯ ) 2

S B C D = r m j = 1 s k = 1 t l = 1 u ( y j k l ¯ y j k ¯ y j l ¯ y k l ¯ + y j ¯ + y k ¯ + y l ¯ y ¯ ) 2

S A B C D = m i = 1 r j = 1 s k = 1 t l = 1 u ( y i j k l ¯ y i j k ¯ y i j l ¯ y i k l ¯ y j k l ¯ + y i j ¯ + y i k ¯ + y i l ¯ + y j k ¯ + y j l ¯ + y k l ¯ y i ¯ y j ¯ y k ¯ y l ¯ + y ¯ ) 2

其中,

y ¯ = 1 r s t u m i = 1 r j = 1 s k = 1 t l = 1 u w = 1 m y i j k l w = μ + ε ¯

y i j k l ¯ = 1 m w = 1 m y i j k l w = μ + α i + β j + γ k + θ l + η i j + η i k + η i l + η j k + η j l + η k l + η i j k + η i j l + η i k l + η j k l + η i j k l + ε i j k l ¯

y i ¯ = 1 s t u m j = 1 s k = 1 t l = 1 u w = 1 m y i j k l w = μ + α i + ε i ¯

y j ¯ = 1 r t u m i = 1 r k = 1 t l = 1 u w = 1 m y i j k l w = μ + β j + ε j ¯

y k ¯ = 1 r s u m i = 1 r j = 1 s l = 1 u w = 1 m y i j k l w = μ + γ k + ε k ¯

y l ¯ = 1 r s t m i = 1 r j = 1 s k = 1 t w = 1 m y i j k l w = μ + θ l + ε l ¯

y i j ¯ = 1 t u m k = 1 t l = 1 u w = 1 m y i j k l w = μ + α i + β j + η i j + ε i j ¯

y i k ¯ = 1 s u m j = 1 s l = 1 u w = 1 m y i j k l w = μ + α i + γ k + η i k + ε i k ¯

y i l ¯ = 1 s t m j = 1 s k = 1 t w = 1 m y i j k l w = μ + α i + θ l + η i l + ε i l ¯

y j k ¯ = 1 r u m i = 1 r l = 1 u w = 1 m y i j k l w = μ + β j + γ k + η j k + ε j k ¯

y j l ¯ = 1 r t m i = 1 r k = 1 t w = 1 m y i j k l w = μ + β j + θ l + η j l + ε j l ¯

y k l ¯ = 1 r s m i = 1 r j = 1 s w = 1 m y i j k l w = μ + γ k + θ l + η k l + ε k l ¯

y i j k ¯ = 1 r s t m i = 1 r j = 1 s k = 1 t w = 1 m y i j k l w = μ + α i + β j + γ k + η i j + η i k + η j k + η i j k + ε i j k ¯

y i j l ¯ = 1 r s u m i = 1 r j = 1 s l = 1 u w = 1 m y i j k l w = μ + α i + β j + θ l + η i j + η i l + η j l + η i j l + ε i j l ¯

y i k l ¯ = 1 r t u m i = 1 r k = 1 t l = 1 u w = 1 m y i j k l w = μ + α i + γ k + θ l + η i k + η i l + η k l + η i k l + ε i k l ¯

y j k l ¯ = 1 s t u m j = 1 s k = 1 t l = 1 u w = 1 m y i j k l w = μ + β j + γ k + θ l + η j k + η j l + η k l + η j k l + ε j k l ¯

总的平方和分解如下:

S T = S E + S A B C D + S A B C + S A B D + S A C D + S B C D + S A B + S A C + S A D + S B C + S B D + S C D + S A + S B + S C + S D

方差分析模型的检验分析如表1所示。

Table 1. Analysis of variance of four variables with interaction effect

表1. 具有交互效应的四元方差分析表

F F α 时,拒绝原假设,说明因素对实验结果有显著影响。

4. 实证分析

选取1958~2009年日本广岛和长崎原子弹爆炸0~80岁患者癌症发病率数据为研究对象,分析患者所居城市(city)、性别(sex)、离子辐射剂量(dose)、吸烟时长(smoking)对癌症发病率(incidence)的影响,具体数据见表2

Table 2. Incidence rate of all solid cancers under different level combinations

表2. 不同水平组合下的所有实体癌症的发病率数据

城市分为广岛和长崎,1代表广岛,2代表长崎;性别1代表男性,2代表女性;离子辐射剂量按照是否大于4 Gy的标准进行分类,1代表剂量大于等于4 Gy,2代表剂量小于4 Gy;吸烟时长按照吸烟年限进行分类,将吸烟时长分为,1 (从不吸烟),2 (吸烟0~20年)以及3 (大于20年)分为三个水平。

表2数据进行四因素方差分析,验证样本的正态性 [16] [17] [18]、独立性以及方差齐性 [19] [20] [21],结果表明原始数据因变量incidence不服从正态分布和方差齐性。因此,取 1 / incidence 作为新的因变量进行方差分析,利用SPSS 22.0对变换后的数据进行正态性与方差齐性检验,其正态性检验结果如表3图1图2所示,方差齐性检验结果如表4所示。

Table 3. Normality test

表3. 正态性检验表

表3可知, p > 0.05 ,故这组数据满足正态分布,且P-P图与Q-Q图表明变换后的数据符合正态分布。

Figure 1. P-P diagram of normality test

图1. 正态性检验P-P

Figure 2. Q-Q diagram of normality test

图2. 正态性检验Q-Q图

Table 4. Test table for homogeneity of variance

表4. 方差齐性检验表

表4可知,在显著水平取0.05时,城市、性别、离子辐射剂量、吸烟时长四个因素p值均大于0.05,认为数据满足方差齐性检验。因此,变换后的数据满足方差分析条件。

对变换后的数据进行方差分析,通过R编程 [22] [23] [24] 得到结果如表5所示。

Table 5. Analysis of variance

表5. 方差分析表

表5可知,在显著水平取0.05时,离子辐射剂量和吸烟时长对癌症发病风险具有显著性影响,城市和性别对癌症患病风险并没有显著性的影响,并且四个因素不存在显著性的交互效应,因此,研究癌症风险应该关注离子辐射剂量和吸烟时长等其他因素与癌症发病机制的关系。

5. 结论

本文在两因素方差分析模型基础上给出了具有交互作用的四因素方差分析模型的理论推导,并将其应用到具体实例中。在应用多因素方差分析模型时,可以通过对数据做变换来达到正态性、方差齐性的要求。

对癌症发病率数据的方差分析结果表明,吸烟时长和离子辐射剂量对癌症的患病风险具有显著性影响,地域和性别并没有显示对癌症风险具有显著性影响,因此,研究癌症的发病风险应该关注离子辐射和吸烟等其他因素在癌症发病机理中所起的作用,这将需要更具体的生物数学模型来验证,这也将是我们下一步的工作。

基金项目

陕西省教育厅专项科研计划项目,项目名称:多重因素对肺癌发病的影响与数据分析,项目编号:19JK0359。

参考文献

[1] 吴坚. 应用概率统计[M]. 第2版. 北京: 高等教育出版社, 2007: 262.
[2] 魏宗舒. 概率论与数理统计教程[M]. 北京: 高等教育出版社, 2001: 372-391.
[3] 张忠群. 概率论与数理统计[M]. 贵阳: 贵州大学出版社, 2008: 203.
[4] Hardle, W.K. and Simar, L. (2014) Applied Multivariate Statistical Analysis. 4th Edition, Springer-Verlag, Berlin.
[5] 何晓群. 多元统计分析[M]. 第四版. 北京: 中国人民大学出版社, 2015.
[6] 王学民. 应用多元统计分析[M]. 第五版. 上海: 上海财经大学出版社, 2017.
[7] 王苗苗. 双因素方差分析模型的构建及应用[J]. 统计与决策, 2015(18): 72-75.
[8] 戴金辉, 韩存. 双因素方差分析方法的比较[J]. 统计与决策, 2018, 34(4): 30-33.
[9] 刘晓华. 多元方差分析模型的构建与应用[J]. 统计与决策, 2019, 35(1): 75-78.
[10] 黄伯强, 李启才. 带交互作用的双因素方差分析的线性回归建模[J]. 统计与决策, 2021, 37(1): 10-15.
[11] 戴金辉, 代金辉. 方差分析在跳水运动成绩管理中的应用[J]. 统计与决策, 2016(22): 80-82.
[12] Khatun, N. (2021) Applications of Normality Test in Statistical Analysis. Open Journal of Statistics, 11, 113-122.
https://doi.org/10.4236/ojs.2021.111006
[13] Michael, J.R. (1983) The Stabilized Probability Plot. Biometrika, 70, 11-17.
https://doi.org/10.1093/biomet/70.1.11
[14] Pallmann, P., Hothorn, L.A. and Djira, G.D. (2014) A Levene-Type Test of Homogeneity of Variances against Ordered Alternatives. Computational Statistics, 29, 1593-1608.
https://doi.org/10.1007/s00180-014-0508-z
[15] Grant, E.J., Brenner, A., Sugiyama, H., et al. (2017) Solid Cancer Incidence among the Life Span Study of Atomic Bomb Survivors: 1958-2009. Radiation Research, 187, 513-537.
https://doi.org/10.1667/RR14492.1
[16] Sinz, F., Gerwinn, S. and Bethge, M. (2008) Characterization of the p-Generalized Normal Distribution. Journal of Multivariate Analysis, 100, 817-820.
https://doi.org/10.1016/j.jmva.2008.07.006
[17] Kolkiewicz, A., Rice, G. and Xie, Y. (2021) Projection Pursuit Based Tests of Normality with Functional Data. Journal of Statistical Planning and Inference, 211, 326-339.
https://doi.org/10.1016/j.jspi.2020.07.001
[18] Lilliefors, H.W. (2012) On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. Journal of the American Statistical Association, 62, 399-402.
https://doi.org/10.1080/01621459.1967.10482916
[19] Conover, W.J., Johnson, M.E. and Johnson, M.M. (2012) A Comparative Study of Tests for Homogeneity of Variances, with Applications to the Outer Continental Shelf Bidding Data. Technometrics, 23, 351-361.
https://doi.org/10.1080/00401706.1981.10487680
[20] Esmailzadeh, N. (2019) A Comparison of Five Bootstrap and Non-Bootstrap Levene-Type Tests of Homogeneity of Variances. Iranian Journal of Science and Technology, Transactions A: Science, 43, 979-989.
https://doi.org/10.1007/s40995-018-0485-0
[21] Sharma, D. and Golam Kibria, B.M. (2013) On Some Test Statistics for Testing Homogeneity of Variances: A Comparative Study. Journal of Statistical Computation and Simulation, 83, 1944-1963.
[22] 薛毅. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007.
[23] Ran, Y. and Yuan, X. (2020) Analysis of the Influencing Factors of the Multi-Linear Regression Model Based on R Language on the Total Cost of Domestic Tourism. Frontiers in Economics and Management, 1, 60-65.
[24] Kumar, M., Sonker, P.Kr., Saroj, A., Jain, A., Bhattacharjee, A. and Saroj, R.Kr. (2020) Parametric Survival Analysis Using R: Illustration with Lung Cancer Data. Cancer Reports, 3, e1210.
https://doi.org/10.1002/cnr2.1210