1. 引言
随机变量相依性的度量问题一直是统计的热点问题,多年来广泛应用于各个领域。在传统的概率统计学中,相关性度量多采用皮尔逊相关系数
、肯德尔秩相关系数
和斯皮尔曼秩相关系数
。但这要求随机变量的方差保持在特定的区间内,所描绘相关关系的类型也只适用于线性关系或单调关系。针对上述方法的不足,Copula函数理论逐渐发展完善,它可以精准地描绘变量间的相依结构,并且可以用于各种类型的变量,包括连续型、离散型和混合型变量。随着经济一体化全球化的发展,资产结构也日益复杂,一个行业市场的波动都可能会引起另一个或多个市场的波动。投资回报和投资选择是每一位投资者密切且直接关注的重点,研究金融资产的收益率显得尤为重要。但金融收益率的序列通常不满足正态假设,各资产收益率的相关性也并不是线性的,彼此之间的复杂相关性并不能简单地由相关系数度量,而Copula函数恰能解决这类问题。通过深入地研究并把握各行业股票之间的相关性以及尾部相关性,以规避风险,合理投资,减少损失。
近年来在社会不断发展的同时,大量国民开始涌入金融市场,而现实中金融市场正是糅合了非对称性、非线性、时变性等多特征的复杂系统。恰好Copula函数理论能够更完美地刻画资产收益率的真实分布,有效减少因为强行捕捉多个序列之间的相关关系而造成的谬论。所以随着金融市场的不断扩大,Copula函数广泛应用在金融领域。而汽车和钢铁作为我国重要的两支关乎民生和经济发展的股票,其相关结构和相关性的研究较少。本文构建Copula模型对汽车与钢铁股票进行实证分析,通过非参数核密度法确定边缘分布、对不同的Copula模型进行参数估计,比较五种Copula模型的拟合效果,进行拟合优度检验。最后依据所选择的拟合效果最优的Copula模型计算相关性系数以及尾部相关系数。研究汽车与钢铁股票价格之间的相依性,从相依性结构,整体相依性以及尾部相依性进行了定量分析。实证相关Copula函数理论的同时,研究汽车与钢铁行业股票间的相依性,根据结果进行分析,为我国两支重要股票给出合理的投资建议,以减少损失和风险,获得最大的收益。
2. Copula函数模型的理论基础
2.1. Sklar定理
Sklar定理 [1] :假设F为n维联合分布函数,
分别为n个边缘分布函数,则存在一个n元的连接函数
,这个连接函数叫做Copula函数,使得:
(1)
由上式也可看出,Copula函数是将
剔除边际分布信息之后,余留下来的重要信息,涵盖了变量之间的联系,通常被称为变量间的相依结构。且分布函数F的密度函数满足下式:
(2)
其中,
,
是边缘分布
的密度函数。
Sklar定理的提出具有十分重要的理论意义,为统计领域提供了一种新的求取联合分布的方法。并且对于连续的边缘分布,只能得到唯一的连接函数。
2.2. Copula函数
从定义来看,Copula函数具有种类丰富的不同形式。本文研究其两个分布族:椭圆分布族、Archimedean分布族 [2] [3] 。并针对这两个分布族,我们选择了其中的五个Copula函数作为建立模型的基础。
2.2.1. 椭圆Copula函数族
(1) Gaussian Copula函数
高斯Copula是边缘分布为正态分布的连接函数,对应的分布函数和密度函数表达式为:
(3)
(4)
其中
为n阶对称正定矩阵,
表示相关系数矩阵为
的n元标准正态分布的分布函数;I表示单位矩阵,
。
设相关系数为
,则二元函数如下:
(5)
正态Copula函数取样方便,参数数量较少,函数分布性质易掌握模拟。
(2) t-Student Copula函数
t-Copula指多元t-Student分布的连接函数,若
服从t分布,则自由度为k的多维t-Copula函数分布函数和密度函数为:
(6)
(7)
其中
表示相关系数矩阵为
,自由度为k的n元标准t分布的分布函数,
。
对于二元情况,存在如下函数形式,其中
为变量间线性相关系数。
(8)
t-Copula具有较厚的对称的尾部,这使得我们能够通过该函数模型捕捉到尾部的变化,且尾部相关性随着自由度
的增大而增强。
2.2.2. Archimedean Copula函数
Archimedean Copula函数具有分布类型众多、方便计算、可结合性的优良性质,蕴含了良好的统计特性,也因此获得了广泛的应用,常被用在研究金融资产的厚尾性,可结合性等。阿基米德Copula函数的定义如下:
(9)
其中,函数
称为阿基米德Copula函数的生成元,满足
,且对于所有属于[0, 1]的u,有
,即生成元
是一个凸的减函数。
下面引入本文应用到的二元阿基米德Copula函数。
(1) Gumbel Copula函数
生成元函数
,其分布函数为:
(10)
其中
表示该Copula函数中的参数,当
趋于无穷大时,
完全相依,即
。
Gumbel Copula函数上尾高于下尾,不具有对称性。此函数模型说明上尾部存在较强的相关性,下尾部渐进独立。
(2) Clayton Copula函数
生成元为
,分布函数、密度函数如下:
(11)
(12)
其中
表示函数中的参数,
。当
趋于零时,随机变量
趋向于独立,即
,当
趋向于正无穷大时,
趋向于完全相关,
。
Clayton Copula函数下尾高,上尾低。能够捕捉到下尾相关的变化。所以在实际中,可以较为完美地反映具有明显下尾相关关系的资产变量。
(3) Frank Copula函数
生成元
,其分布函数为:
(13)
其中,
作为参数,取值范围为
。当
,随机变量
正相关,反之,存在负相关;若参数无限趋向于零,即
。
Frank Copula函数具备对称相关模式,且对上下尾部均不敏感。难以捕捉非对称二元变量的相依性和尾部相关性。该模型适用于具有对称尾部且尾部渐进独立的二元随机变量。
2.3. 边缘分布的拟合和Copula函数的参数估计
构建Copula模型的步骤为确定边缘分布和估计Copula函数的参数。在确定随机变量分布的研究中,一般分为参数法和非参数法。参数法具有一定的主观性,可能存在较大误差。非参数法引入经验分布函数和核分布,这种方法适用于边缘分布难以确定的类型。
2.3.1. 非参数核密度估计法
设
是总体X的样本,其总体密度函数
)的核估计为 [3] [4] :
(14)
其中
称为核函数,h称为窗宽,核密度估计的核心就是通过确立核函数和最优窗宽来对变量的样本值的密度函数进行估计。事实上,根据文献调研和学者的大量研究已经发现核函数的选择在样本值足够大时,影响微乎其微;但是窗宽h会影响
的光滑程度。在确定最优窗宽时,依据积分均方误差MISE:
(15)
核函数选定时,选择使MISE值最小时的h作为最优窗宽。一般实际应用中,时常将高斯函数作为
核函数,即
,有最佳窗宽为 [3] :
(16)
假设
分别是汽车和钢铁收益率的密度函数,
为其边缘分布函数。其中
由样本的标准差S来代替,n为数据长度。由此得到
的非参数核密度估计为:
(17)
收益率序列
在某一时刻的分布函数值为:
(18)
2.3.2. 基于极大似然估计对Copula函数的参数进行估计 [5]
构建Copula模型时主要分为两步,包括拟合边际分布和Copula函数参数估计。基于2.1中所介绍的Copula函数形式
,
。设
的联合分布函数为:
(19)
其中参数
为Copula函数中的待估计参数,
为边缘分布的参数。联合密度函数为:
(20)
的似然函数为:
(21)
求解得到各参数的估计值:
(22)
实际情况中边缘分布有时难以确定,且估计分布函数中的参数计算量较大。而基于非参数核密度法确定边缘分布函数,随后再采用极大似然法估计Copula函数中的参数这种方法因计算过程较为简便,且能够充分利用样本值而受到青睐。
此时采用核函数
,
来代替边缘分布函数
,只需估计Copula函数中参数即可 [6] ,代入伪似然函数如下即可得到各Copula函数的参数:
(23)
2.4. Copula函数的模型检验与优选
基于随机变量的样本值我们得到了各Copula模型的参数估计值,那么对模型优劣的评价就要引入经验Copula。
首先假定随机变量X,Y分布函数为
、
,则经验Copula如下 [7] :
(24)
其中I为示性函数,
,否则等于0。
2.4.1. 欧式平方距离最小法
以二元经验Copula函数为参照,计算估计得到的Copula函数模型值与经验Copula函数值的欧式平方距离。欧式平方距离
越小,所选的Copula模型拟合数据效果越好,所选模型能够更好地反应随机变量间的相关结构。欧式距离公式如下:
(25)
其中W代表所估计的Copula函数类型,
代表各边缘分布函数的值。
2.4.2. AIC、OLS最小准则 [7]
以其中m为参数数量,n为样本数量。AIC值通常小于零,当AIC和OLS值均最小时,拟合优度最佳。
(26)
(27)
(28)
2.5. Copula函数与相关性测度之间的关系
Copula函数可以用于描述多元随机变量之间的依赖关系,且与Spearman相关系数、Kendall秩相关系数以及尾部相关系数具有一定的解析关系。此外,相关性测度的使用通常局限于较小的样本和某些特定类型的序列,但Copula函数可以适用于更广泛的数据类型和样本大小。下面着重介绍Copula函数与相关性测度之间的关系,各相关测度的定义不做赘述,详见参考文献 [8] 。
Kendall秩相关系数度量了变量间变化的一致程度,若有连续二维随机变量
,设其存在
,则满足 [9] :
(29)
Spearman相关系数将变量的数值进行排序,衡量了两个变量的等级顺序之间的相关性。若连续二维随机向量
,设其存在
,则满足 [9] :
(30)
尾部相关性刻画了一个随机变量取极值时,对令一个变量的取值产生影响的概率,这对资产组合和分配既有重要意义。对于随机向量
,相对应的Copula函数为
,则上、下尾部相关系数满足 [2] [9] :
(31)
(32)
3. 实证分析
3.1. 数据选取与处理
基于申万行业分类标准,将钢铁行业、汽车整车行业的收盘指数Pt作为数据来源,整理编制出对数日收益率Rt的相关数据:
共选取了2020/1/1~2022/12/31的收盘指数数据,编制得到718组有效数据。对所编制的收益率序列进行描述性分析(表1),并进行正态性检验。频率直方图(图1)以及偏度和峰度反应出的信息可以初步判断收益率序列的分布总体呈现出尖峰厚尾的特点。通过QQ图(图2)也可看出有相当一部分的样本点未分布在直线附近。进一步通K-S,J-B进行正态性检验,p值小于0.05,说明两个收益率序列均不服从正态分布。
3.2. 基于非参数核密度法确定序列边缘分布函数
基于非参数核密度法估计两收益率序列的边际密度函数。计算得到基于正态核函数,各序列的最优窗宽
、
。基于式(18)由MATLAB计算得到的经验分布值与核分布值。其值虽并不完全相同,但汽车、钢铁日收益率的经验分布函数图与核分布函数图几乎完全重合(图3)。由此可见核密度估计法估计总体分布的优良性与可行性。
![](//html.hanspub.org/file/22-1252404x118_hanspub.png?20240529085609088)
Figure 3. Kernel distribution estimate and empirical distribution chart of daily return rate of automobile, steel
图3. 汽车和钢铁产日收益率核分布估计图和经验分布图
在确定汽车和钢铁收益率的边缘分布后,得到新的分布序列
,对新的序列进行K-S检验,检验结果均为h = 0,且p值小于0.05,则无法拒绝原假设即服从均匀分布,满足用Copula函数连接成联合分布的要求。以非参数核密度估计得到各收益率序列的边缘分布,避免了全参数估计法中主观判断样本分布类型的不准确性,同时又使得建模过程完全基于样本数据本身。
3.3. Copula模型求解与检验
3.3.1. Copula函数模型的参数估计与相关性测度计算
基于核密度法得到的分布函数值,采用极大似然法估计五种Copula函数中的未知参数;并依据Copula函数与相关性测度直接的关系得到各测度值,结果如下表2所示。
![](Images/Table_Tmp.jpg)
Table 2. Copula function parameter estimates and correlation measures
表2. Copula函数参数估计值及相关性测度值
从各Copula函数得到的相关性测度可以初步看出汽车与房地产之间存在中等强度的正相关性。从尾部相关系数也可以看出高斯Copula、t-Copula以及Frank Copula函数具备对称相关模式,且高斯Copula和Frank Copula对上下尾部均不敏感。难以捕捉非对称二元变量的相依性和尾部相关性。Gumbel Copula函数说明上尾部存在较强的相关性即当房地产股票较高时,汽车的股票价格有37%的概率也较高,但下尾部渐进独立。Clayton Copula函数模型则说明两组股票之间存在较强的下尾相关性,即当房地产股票较低时,汽车的股票价格有43%的概率也较低,但上尾渐进独立。
3.3.2. 最优Copula函数的选择
首先通过绘制二维分布直方图初步筛选可能拟合的Copula函数,通过图4可以看出房地产与汽车股票价格之间存在尾部对称性,则可以初步筛选出高斯Copula、t-Copula以及Frank Copula函数三个模型;进一步通过二维分布直方图可观察到尾部具有一定厚度,存在尾部相关性,则t-Copula可能为最佳模型。
但二维分布直方图只能进行定性分析,并不能定量地抉择出最优的Copula函数模型。所以我们以经验Copula为参照,采取欧式距离最小法和AIC、OLS最小准则定量计算出对房地产与钢铁股票价格之间联合分布拟合效果最好的Copula模型(表3)。
欧式平方距离和AIC、OLS反映了二元Copula模型对样本数据拟合情况的优劣,欧式平方距离和AIC、OLS值越小,拟合情况越好,该Copula模型越能描述房地产与汽车股票收益率之间的联合分布,即相关结构。由表3可以看出二元t-Copula模型的欧式平方距离和AIC、OLS值均最小,能够更好地拟合汽车–钢铁收益率的样本数据。
此时我们通过定性定量分析,对拟合效果优劣进行检验,均发现对于所选取的收益率序列,t-Copula函数是表征汽车–钢铁股票收益率相关结构最好的函数模型。
![](//html.hanspub.org/file/22-1252404x120_hanspub.png?20240529085609088)
Figure 4. The histogram of daily returns for automobile and steel production
图4. 汽车和钢铁产日收益率直方图
![](Images/Table_Tmp.jpg)
Table 3. The parameter estimator of Copula function and the test value
表3. Copula函数参数估计值及检验值
3.3.3. 相关性分析
将t-Copula模型的参数代入式(8)可以得到汽车–钢铁收益率之间的相关结构为:
对应的二元t-Copula函数模型的密度函数图和分布函数图如下。
图5表征刻画了两支收益率之间的相关结构、整体相关性。接下来进一步分析由t-Copula函数得到以下相关性测度的含义。
根据相关性测度(表4)和上图得到的汽车–钢铁的联合概率密度以及联合分布函数图像可以看出,汽车与钢铁之间存在中等程度的正相关性。同时汽车与钢铁收益率之间存在对称的尾部相关性,即当房地产股票发生极端上涨或下跌时,汽车股票也有将近20%的可能性发生上涨或下跌。
4. 结论
自由度为5,参数为0.4879的t-Copula函数模型能够更好地描绘汽车–钢铁收益率的相关结构,且根据相关系数,发现两者呈现中等强度的正相关性。上尾、下尾相关系数均为0.1884,即汽车股票收益率的剧烈上涨或下跌也会很可能引发钢铁股票收益的上涨或下跌。投资者可以同时参考消费者信心,税收政策,宏观经济环境,交通建设、城市化进程等影响因素,在形势较好的情况下同时购入这两支股票,以实现利益最大化。
![](//html.hanspub.org/file/22-1252404x122_hanspub.png?20240529085609088)
Figure 5. Binary t-Copula density function and distribution function diagram
图5. 二元t-Copula密度函数和分布函数图
![](Images/Table_Tmp.jpg)
Table 4. t-Copula correlation measure
表4. t-Copula的相关性测度
总之Copula函数能够描述和捕捉各个维度之间的非线性相关关系。其优势主要体现在:对数据分布没有假设限制;能够处理极端事件和崩盘情况,从而更准确地评估风险。其次在Copula模型的边缘分布的确定和参数估计中,假定分布类型进行参数估计存在一定的主观性,所得到的分布拟合效果很可能不尽如人意。那么对于边缘分布难以确定的情况下,基于核密度估计的估计法则更具有优势,主要体现在:更加灵活,不需要假设其边缘分布的类型;避免了过度拟合,减少了参数数量,简便了运算。但是Copula函数模型也存在一定的不足,对Copula函数种类的选取只采取了常见的五种函数形式,人为地限制了样本数据间存在的相关结构类型,比如正态Copula函数以及Frank Copula函数具有对称性,但尾部渐进独立,难以捕捉非对称二元变量的相依性和尾部相关性。Gumbel Copula函数上尾高于下尾,不具有对称性。此函数模型说明上尾部存在较强的相关性,但下尾部渐进独立。Clayton Copula函数下尾高,上尾低。能够捕捉到下尾相关的变化,上尾相关变化难以获取。所以面对更复杂的数据结构,可能存在更加合适的Copula函数类型,比如复合Copula函数。
基金项目
中国石油大学(北京)“1158工程项目”。