1. 引言
均值是描述数据集中位置的一个统计量,用来表示统计对象的一般水平。由于它直观、简明,所以在日常生活中经常被用到,如衡量一个国家或地区经济发展状况的人均GDP,反映居民收入状况的人均可支配收入,还有在学校中经常被用来衡量学生学习成绩的平均分等。平均值具有非常好的数学性质,但是它对极端值比较敏感,偏向尾部较厚的方向 [1] 。研究极端值对均值的影响程度,或两者之间的相关性具有重要意义。
2. 问题的分析
极端值对均值的影响可以通过二者之间的相关性来衡量。如果相关性较强,则影响程度较大,否则,则认为影响程度较小。描述变量间相关性的度量方法有很多,其中Pearson线性相关系数是最常用的,但是它只能描述变量间的线性相关关系,对于非线性的关系并不能充分刻画。而Copula函数是用来研究相关性的一个非常有效的方法。梁冯珍,史道济(2008)通过Copula函数研究了离散型最小和最大次序统计量的相关性,讨论了最小次序统计量和最大次序统计量的渐近独立性 [2] 。徐付霞,董永权(2009)利用Copula函数的相关结构分析了泥石流地貌要素中流域面积与流域高差的相关性 [3] 。Copula函数的出现使变量之间的相关性刻画更加趋于完善,因为它几乎包含了随机变量所有的相关信息 [4] 。本文将利用Copula函数来研究相关性。
首先,以班级为单位选取某高校学生的线性代数期末考试成绩作为研究对象,将每个班级中的最高分与最低分看作极端值,来研究极端成绩对平均成绩的影响。我们选取的班级包括材料、建筑、电信等111个理工科班级,11个卓越班和20个IT班,然后计算这全部142个班级中,每个班级成绩的最高分、最低分以及平均分。部分计算结果见表1。
最高分、最低分与平均分的频率分布直方图见图1,它们各自的偏度、峰度以及正态性检验结果见表2。其中正态性检验采用Lillie test检验 [5] ,显著性水平为0.1。
由图1与表2可知,最高分、最低分与平均分的数据均不服从正态分布,而且也很难从其它常见分布中找到适合它们的分布 [6] 。因此,我们用非参数密度估计的核密度估计法来对这三个总体的密度函数
![](Images/Table_Tmp.jpg)
Table 1. The highest score, the lowest score and the average score of points in some classes
表1. 部分班级成绩的最高分、最低分与平均分
![](Images/Table_Tmp.jpg)
Table 2. Skewness, kurtosis and normality test results
表2. 偏度、峰度以及正态性检验结果
![](//html.hanspub.org/file/13-2620446x10_hanspub.png)
Figure 1. Frequency distribution histogram
图1. 频率分布直方图
进行拟合,采用Gaussian核函数与默认的最佳带宽 [7] ,做出的核密度估计图与核分布估计图见图2与图3。
比较图1与图2可知,求出的核密度估计曲线与三组成绩数据的频率直方图均附和较好,即对数据的拟合效果较好。因此,本文对三组成绩数据分布的拟合均采用核密度估计的结果。
3. Copula函数模型的建立
3.1. 参数估计
首先,选用五个常用的Copula函数,分别为正态Copula,t-Copula,Gumbel Copula,Clayton Copula与Frank Copula作为本文研究的备选Copula,这五个Copula函数可以充分刻画变量间对称与非对称、上尾或下尾相依的相关关系。它们的分布函数表达式及其参数取值范围见文 [8] 。
然后,我们对备选Copula函数中的未知参数进行估计。常用的参数估计方法有极大似然估计法(ML估计)、分步估计法(IFM估计)和半参数估计法(CML估计),其中半参数估计(CML估计)又分为基于经验分布函数的标准极大似然估计和基于非参数核密度的极大似然估计 [4] 。
由于极大似然估计(ML估计)和分步估计(IFM估计)的精度依赖于边缘分布拟合的准确性,如果边缘分布的拟合不精确,则ML估计和IFM估计的精度会受到很大影响,而半参数估计(CML估计)不需要对边缘分布进行拟合,可以避免因边缘分布拟合不精确带来的损失,因此本文在问题分析中的核密度估计
![](//html.hanspub.org/file/13-2620446x12_hanspub.png)
Figure 3. Estimation of nuclear distribution
图3. 核分布估计图
结果的基础上,采用CML估计中基于非参数核密度的极大似然估计法来对Copula函数中的未知参数进行估计。即将已经计算出的在原始样本点处的核分布估计值代入Copula函数中,采用极大似然法估计函数中的未知参数。本文选取的五个Copula函数的参数估计结果分别见表3与表4,其中表3表示最高分与平均分之间Copula函数的参数估计结果,表4表示最低分与平均分之间Copula函数的参数估计结果。
从参数估计结果可以看出,五个Copula函数的参数估计值均在参数取值范围之内 [8] 。
3.2. 模型的选取
根据经验Copula函数与Copula函数的平方欧式距离
来选择合适的Copula,距离
越小,表示Copula函数的拟合程度越好。平方欧式距离
的计算公式为
(1)
其中
表示经验Copula函数,
表示Copula函数。
经验Copula函数的图像见图4,五个Copula函数与经验Copula函数的平方欧式距离
见表5与表6,其中表5表示最高分与平均分的Copula函数的平方欧式距离,表6表示最低分与平均分的Copula函数的平方欧式距离。
由表5可以看出,Gumbel Copula函数对最高分与平均分的Copula函数的拟合效果是最好的,所以
![](Images/Table_Tmp.jpg)
Table 3. Parameter estimation results of Copula functions with the highest score and the average score
表3. 最高分与平均分的Copula函数的参数估计结果
![](Images/Table_Tmp.jpg)
Table 4. Parameter estimation results of Copula functions with the lowest score and the average score
表4. 最低分与平均分的Copula函数的参数估计结果
![](Images/Table_Tmp.jpg)
Table 5. Square Euclidean distance of Copula functions with the highest score and the average score
表5. 最高分与平均分的Copula函数的平方欧式距离
![](Images/Table_Tmp.jpg)
Table 6. Square Euclidean distance of Copula functions with the lowest score and the average score
表6. 最低分与平均分的Copula函数的平方欧式距离
![](//html.hanspub.org/file/13-2620446x22_hanspub.png)
Figure 4. The distribution function of Empirical Copula
图4. 经验Copula分布函数图
我们选用Gumbel Copula函数来研究最高分与平均分的相关性。具体地,描述学生成绩最高分与平均分之间相关关系的Gumbel Copula函数为
(2)
表6表明,Gumbel Copula函数对最低分与平均分的Copula函数的拟合效果也是最好的,因此我们也选用Gumbel Copula函数来研究最低分与平均分的相关性。描述学生成绩最低分与平均分之间相关关系的Gumbel Copula函数为
(3)
相应的Gumbel Copula的密度函数和分布函数图见图5和图6。
接下来我们通过选取的Gumbel Copula模型对数据进行相关性分析。
4. 相关性分析
我们知道,通过Copula函数不仅可以求变量间的秩相关系数,还可以求尾部相关系数。尾部相关性可以较好地描述极端事件发生时变量间的相互作用,即当一个随机变量大幅度增加或者大幅度减少时,另一个随机变量也发生大幅度增加或者大幅度减少的概率 [9] 。基于Gumbel Copula函数求解Kendall秩相
关系数的公式为
,求解尾部相关系数的公式为
与
,其中
与
分别表示上
尾与下尾相关系数的估计值。由于Gumbel Copula函数具有明显的上尾相关性,因此我们可以通过它对数据进行上尾相关性分析。
将表3和表4第4列的参数估计值
代入基于Gumbel Copula函数求解相关系数的表达式中,得到成绩间的Kendall秩相关性与上尾相关性情况见表7。
![](//html.hanspub.org/file/13-2620446x31_hanspub.png)
Figure 5. The density function graph and distribution function graph of Gumbel-Copula between the highest score and average score
图5. 最高分与平均分的Gumbel-Copula密度函数与分布函数图
![](//html.hanspub.org/file/13-2620446x32_hanspub.png)
Figure 6. The density function graph and distribution function graph of Gumbel-Copula between the lowest score and average score
图6. 最低分与平均分的Gumbel-Copula密度函数与分布函数图
![](Images/Table_Tmp.jpg)
Table 7. Correlation coefficient based on Gumbel Copula
表7. 基于Gumbel Copula的相关系数
通过比较基于Gumbel Copula函数的Kendall秩相关系数可知,最高分与平均分之间的秩相关系数低于最低分与平均分之间的秩相关系数,这说明最低分对平均分的影响程度大于最高分对平均分的影响程度。
另外,由表7可知,最高分与平均分之间的上尾相关系数为0.4176,最低分与平均分之间的上尾相关系数为0.4560,这说明最高分、最低分与平均分之间均存在着上尾相关性。我们知道,上尾相关性是指变量间同时出现大值的概率 [10] ,因此,当某个班级的平均分较高时,同时该班级的最高分与最低分也较高的概率分别为0.4176与0.4560。由于最低分与平均分同为较大值的概率高于最高分与平均分同为较大值的概率,说明在平均分较高的情况下,要想继续提高平均分,提高最低分比提高最高分会更加有效。
5. 结论
通过本文对某高校工科学生的线性代数期末考试成绩的研究可知,不论是从描述全局相关性的Kendall秩相关系数来看,还是从描述局部相关性的上尾相关系数来看,最低分与平均分之间的相关系数均高于最高分与平均分之间的相关系数,即最低分对平均成绩的影响程度大于最高分对平均成绩的影响程度。
本文的研究结果可以推广到实际生活中去。例如,在教学中,如果想提高一个班级的平均成绩,老师可以重点提高分数较低的同学的成绩;在经济领域中,例如对于北上广这些人均GDP较高的比较发达的地区,可以重点通过扶贫来进一步提升地区发展水平。