1. 研究背景及意义
股票市场的出现是人类经济社会现代化进程的里程碑,是商品化、货币化、信用化、证券化深入发展的重要产物,它极大解放和发展了社会生产力,推动了经济社会的快速发展。从1990年12月上海证券交易所成立至今,我国已经拥有了数千家股票上市公司,股票市场成为国民经济系统的重要组成部分 [1]。随着时代的发展,越来越多的股民参与投资到股票市场中,如何从市场中获取最大利润,已经成为众多投资者关心的问题。这些投资者关注的信息反过来能对股票市场产生影响,因此对股票市场的收益率问题进行研究,不仅能反映资本市场运行的基本情况,还能预测未来市场的发展和走向 [2]。
到目前为止,国内学者对于股票收益影响因素研究的文章很多,例如刚猛和陈金贤利用实证研究的方法分析了我国股票市场1995年1月到2002年1月间的实际收益率、通货膨胀率和实体经济活动三者之间的相关关系;又如刘志新、黄昌利采取将单因素模型与多因素模型结合的方法,研究了公司规模大小与市盈率的变动对公司股票收益率的影响 [3]。此外,也有研究者认为各种公开披露的信息,包括未经披露的内部信息,甚至是非理性行为等都对股票收益率有影响,且尚无任何种类模型能精确地反映股票收益率的形成和变化机制 [4]。但概括起来,可以把影响股票收益率的因素分为宏观因素、中观因素、微观因素三大类。
具体来说,影响股票收益率的宏观因素包括国民生产总值、通货膨胀、财政政策等。诸如各个学派已经研究过通货膨胀与股票收益率的相关关系,构建了费雪理论及费雪效应悖论的解释假说 [5]。又如工业增加值超预期的冲击会对收益率产生正面影响,而生产者物价指数超预期冲击则会对收益率产生负面影响 [6]。中观因素则主要指的是行业因素,股票所属行业的不同、行业发展政策的不同等都会对股票收益率造成一定的影响。微观因素则多为股票自身的一些因素,例如净资产收益率、股东权益周转率、营业收入现金比率这些微观因素与股票收益率成正相关关系,而贝塔系数、公司规模、公司成长性等则与股票收益率成负相关关系 [7]。
时间序列分析方法也有较为广泛的应用。很多情况下,我们都是根据实际问题,对某个给定数据的序列进行拟合,并对模型中各参数进行估计,然后对模型拟合的充分性进行检验。这其中的关键问题就是检验时间序列的平稳性。如果是平稳序列,则可以选用ARMA模型;若不是平稳序列,则需要先平稳化,再做进一步分析。对时间序列进行检验的方法有很多种,例如逆序检验法、游程检验法、参数检验法、单位根检验法等,在实际操作中,应根据数据背景和经验选择合适的方法 [8]。最后,可以根据已得到的时间序列模型对该序列在未来的情况进行预测,这也是多数时间序列问题研究的目的。
随着时间序列理论的完善和发展,其在包括心理学、数据挖掘、数字化误差处理、地下水位预报、空气污染分析在内的众多领域都有应用。在股市方面,时间序列分析也可以根据股票收益率的历史数据对未来股票的涨跌情况做出预测。采取非线性时间序列分析技术对股市指数序列和收益率序列的研究已经取得了可喜的成绩,这是时间序列在金融领域的重要应用成果 [9]。
本文研究的股票收益率相关分析包括多只股票,因此自变量不止一个,我们使用多元线性回归分析方法研究问题。多元线性回归的中心问题是建立回归模型,根据变量的观测数据对回归方程进行拟合,研究因变量与各自变量的关系,并预测因变量的取值 [10]。我们在拟合时使用最小二乘法,确定模型之后,再通过观测平方相关系数(即R2)的值来对模型的拟合优度进行判断 [11]。R2的值越接近1,说明拟合效果越好。此外,我们还可以对因变量与自变量之间线性关系的假设进行显著性检验,以确认回归效果是否显著,一般应用F检验的方法 [12]。多元回归分析在实际问题中同样有非常广泛的应用。
综合以上讨论和分析,我们希望通过研究股票收益率的变化,对影响股票收益率的某些因素进行分析,从而更全面地判断和预测股票未来的涨跌趋势,给股民投资提供有价值的建议。本文即从行业这一中观影响因素出发,讨论所属同一行业的不同股票收益率之间的相关关系。我们从沪深两市所有A股中选取了银行业的21只股票,并查找这些股票一段时间内的日连续收益率数据,以这些数据为基础,分析这些股票之间存在的相关规律。
由于我们是通过多元回归分析的方法研究股票收益率之间的关系,在构造多元线性回归模型时,必须选定一只股票作为因变量,因此我们希望选择与其他股票收益率联系最密切的那只股票作为因变量。在选定因变量以后,从实际问题的角度来考虑,我们希望通过构建模型解释这只股票为何与其他股票的收益率有关系,一般会涉及这些股票公司所属的地区、银行经营和服务范围的异同点、各股票公司之间的经济和贸易上的往来以及管理政策等因素。我们综合考虑这些因素,以解释这只股票与其他股票收益率之间的关系,最后得到结论说明哪些因素会显著影响股票的收益率,给出自己的观点和建议。
2. 数据的来源与整理
本文选择银行业的21只股票的收益率作为原始数据,它们分别为:招商银行(600036,括号内数字表示股票代码,下同)、平安银行(000001)、宁波银行(002142)、浦发银行(600000)、华夏银行(600015)、民生银行(600016)、无锡银行(600908)、江苏银行(600919)、杭州银行(600926)、南京银行(601009)、常熟银行(601128)、兴业银行(601166)、北京银行(601169)、上海银行(601229)、农业银行(601288)、交通银行(601328)、工商银行(601398)、光大银行(601818)、建设银行(601939)、中国银行(601988)、中信银行(601998)。我们通过大智慧365软件收集了上述21只股票2017年10月9日到2018年3月30日这段时间内的收益率数据,共119个交易日,每只股票都得到了119个数据值(即没有缺失值),将数据制成Excel表格,原始数据如表1所示(因数据的个数较多,这里为节省表格篇幅只列出一部分股票在部分交易日的收益率数据,且表中所有数据都保留到二位小数,收益率为正表示股票价格上涨,反之表示股票价格下跌)。
本文希望研究的问题主要是:第一,得到各股票收益率数据的描述性统计量,并将结果进行对比,观察样本数据大致分布情况;第二,考查各股票收益率数据之间的相关性强弱,试图找到某一只与其他股票收益率关系最为密切的股票;第三,对第二步中选出的那只股票的收益率数据进行平稳性检验,判断其收益率序列是否为平稳时间序列;第四,以第二步中所选出的股票收益率作为因变量,其余部分或全部股票的收益率作为自变量,用多种方法建立多元回归模型,分析这些股票收益率变化之间的相关关系,并给出相应的统计学结论和解释。
3. 数据的描述性统计及其分析
根据原始数据,我们可以容易地求得各股票对应的描述性统计量。使用Python导入数据后,即可以自行编写程序进行求解,所用的程序代码见附录。主要结果如表2所示。表2显示了各股票收益率数据的最大值、最小值、平均值、方差、偏度系数、峰度系数和JB统计量。
从表2可见,在这119个交易日内,这些股票的平均涨跌情况相对变化不大,一般都在0附近波动;但各只股票收益率变化的波动幅度有一定差异,如北京银行收益率的方差较小,其波动幅度小;而平安银行、无锡银行等收益率的方差较大,它们的波动幅度更大。
接下来我们从偏态和峰态两个角度考察股票收益率数据的分布。偏度可以用于度量统计数据分布的偏斜方向和程度,偏度系数等于0时对应的分布是对称分布,偏度系数的绝对值越大,就意味着偏斜越严重。峰度系数则是反映数据分布曲线顶端扁平程度的一个指标。在正态的情形下,峰度系数值是3;如果峰度系数大于3,意味着观察量更集中;反之,当峰态系数小于3时,对应数据的分布就不那么集中,而是更接近于均匀分布。从表2中可以发现,多数股票收益率数据的偏斜程度不大,分布趋于对称,
![](Images/Table_Tmp.jpg)
Table 1. Display of the original data of banking stock returns (part)
表1. 银行股票收益率的部分原始数据展示
![](Images/Table_Tmp.jpg)
Table 2. The descriptive statistics of the rate of return data of each stock
表2. 各只股票收益率数据的描述性统计量
而兴业银行、上海银行、光大银行、中信银行这几只股票分布偏斜较大。同时,多数股票收益率的分布比较集中,且这种特点以上海银行最为明显,少数几只股票收益率的分布则比较分散。
此外,我们利用偏度系数和峰度系数可以得到新的统计量,即JB统计量,它可用于检验一组样本是否来自正态总体。JB统计量的表达式为:
![](//html.hanspub.org/file/12-2580376x9_hanspub.png)
式中的S是偏度系数,K是峰度系数,n是样本容量。在样本分布为正态分布的假设下,JB统计量渐进服从自由度为2的卡方分布。若变量服从正态分布,则其偏度系数值为0,峰度系数值为3,此时JB统计量的值为0;若变量不是正态变量,则JB统计量为一个逐渐增大值。如果JB统计量的值大于11,可以求出对应卡方值大于11的概率为0.004,这个概率过小,因此不能认为样本来自正态分布,反之则可以认为样本来自正态分布。
从表2中可以看到,民生银行、江苏银行、杭州银行、南京银行、常熟银行、北京银行、农业银行、工商银行这8只股票收益率数据的JB统计量值较小,可以认为它们收益率的分布近似服从正态分布;其余13只股票收益率数据的JB统计量值较大,因此不能认为它们的分布为正态分布。
接下来我们考虑的问题是在这21只股票中,能否以某只股票作为因变量,其他部分或全部股票作为自变量,通过构建多元回归模型来解释它们收益率之间的相关关系。为此,我们希望找到一个与其他所有股票相关性最强的股票。为了刻画这种相关性,可以用Pearson相关系数判断。Pearson相关系数能衡量任意两个变量之间的相关程度,它的值越大,两变量之间的线性相关关系就越强。利用SPSS统计软件,能够容易地求得各变量之间的相关系数矩阵,并将此矩阵整理成Excel工作表,如表3和表4所示。
从表3与表4中可见,任何两只股票收益率之间都有一定相关性,且都是正相关。同时,两表中的最后一行对每只股票与其他股票收益率之间的相关系数计算了均值,结果显示,华夏银行与其余股票收益率之间相关系数的均值最大,达到了0.6809,因此华夏银行与其他股票收益率之间的相关性最明显。于是我们把华夏银行的收益率作为因变量,将其他部分或全部20只股票的收益率作为自变量,通过构建多元回归模型来研究它们之间的相关性。
![](Images/Table_Tmp.jpg)
Table 3. Pearson correlation coefficients and their average values between the rate of return of each stock (part)
表3. 各股票收益率之间Pearson相关系数及其均值(部分)
![](Images/Table_Tmp.jpg)
Table 4. Pearson correlation coefficients and their average values between the rate of return of each stock (continues Table 3)
表4. 各股票收益率之间Pearson相关系数及其均值(接续表3)
4. 数据的平稳性检验
我们选择华夏银行该股票收益率的数据,利用Eviews软件可以作出对应的时序图如图1所示,根据时序图即可判断收益率的时间序列是否平稳。
从图中可见,随着时间的推移,华夏银行的收益率数据没有明显的上升或下降趋势,因此可认为华夏银行的收益率数据序列是平稳序列。
接下来继续使用Eviews软件作出华夏银行股票收益率的自相关图,如图2所示。
从自相关图中可以看出,序列的自相关系数始终在0的两侧左右波动,这符合平稳序列的相关性特点。因此我们同样可以认为华夏银行股票收益率序列是平稳时间序列 [13]。
在本节的最后,我们对华夏银行股票收益率序列进行单位根检验。若序列中存在单位根,那么该序列就是非平稳的;对于一个平稳且可逆的ARMA时间序列模型,它一定不含单位根。这里我们选取的是Augmented Dickey-Fuller单位根检验法,结果如图3所示。
由图3可知,在10%、5%和1%的显著性水平下,t检验统计量的值分别是−2.580525、−2.887190和
![](//html.hanspub.org/file/12-2580376x10_hanspub.png)
Figure 1. Timing diagram of the rate of return of Huaxia Bank stock
图1. 华夏银行股票收益率的时序图
![](//html.hanspub.org/file/12-2580376x11_hanspub.png)
Figure 2. Autocorrelation diagram of the rate of return of Huaxia Bank stock
图2. 华夏银行股票收益率的自相关图
![](//html.hanspub.org/file/12-2580376x12_hanspub.png)
Figure 3. Autocorrelation diagram of the rate of return of Huaxia Bank stock
图3. 华夏银行股票收益率的自相关图
−3.489117。因本例中得到的ADF统计量等于−4.749655,都小于上述三个临界值,且p值仅为0.0001,因此拒绝原假设,即认为华夏银行股票收益率序列中不存在单位根,再一次验证了这个序列是平稳的。
5. 多元线性回归模型的求解
结合前面几节的分析,在构建多元线性回归模型时,以华夏银行的收益率作为因变量,其他部分或全部股票的收益率作为自变量,分别采取前进法、后退法、逐步回归法三种方法求解线性回归方程。选用这三种方法,是考虑到本问题中自变量个数较多,如果将所有自变量都引入,模型将十分复杂;同时根据表3和表4,各自变量之间也可能存在一定的关系,这有可能导致多重共线性。如果出现多重共线性,将使得模型估计的结果失真,这时必须剔除一些不必要的变量以得到合适的模型。最终,我们希望模型中只包含那些对因变量有显著影响的自变量。上面提到的三种方法都可以用于选择这样的自变量。
我们使用SPSS软件实现三种方法对应回归方程的求解。求解时,选择F值为F进 = 3.84,F出 = 2.71。使用前进法所得的回归方程中各自变量的系数如图4所示。
从图4中可见,前进法得到的方程是华夏银行 = 0.016 + 0.322 × 交通银行 + 0.296 × 北京银行 + 0.168 × 江苏银行 + 0.189 × 民生银行 + 0.150 × 兴业银行。同时根据SPSS的结果显示,该回归模型中,
![](//html.hanspub.org/file/12-2580376x13_hanspub.png)
Figure 4. The coefficients of each independent variable in the regression equation (using forward method)
图4. 使用前进法求得的回归方程中各自变量的系数
R平方的值是0.863。R平方的值反映了回归的效果,它是一个介于0和1之间的数,R平方的值越大,即意味着模型的拟合效果越好。同样,我们采取后退法,得到的回归方程中各自变量的系数如图5所示(这里因该方法进行的步骤较多,图中未能列出前面若干步得到的回归方程,只保留了最后部分的结果)。
从图5中可见,后退法得到的回归方程是华夏银行 = 0.009 + 0.117 × 浦发银行 + 0.149 × 民生银行 + 0.131 × 江苏银行 + 0.071 × 南京银行 + 0.252 × 北京银行 + 0.292 × 交通银行 + 0.076 × 中信银行。这个回归方程中共包含七个自变量,该模型中R平方的值是0.868。
最后,我们用逐步回归法构建回归方程,得到的方程中各自变量的系数如图6所示。
从图6中可以发现,逐步回归法一共进行了五步,引入了五个自变量,最终所得的回归方程是华夏银行 = 0.016 + 0.322 × 交通银行 + 0.296 × 北京银行 + 0.168 × 江苏银行 + 0.189 × 民生银行 + 0.150 × 兴业银行。同样地,得到该模型中R平方的值是0.863。
综合考虑以上结果,不难发现使用前进法和逐步回归法所得回归方程结果是相同的,都含有五个自变量,而使用后退法得到的回归方程包含了七个变量,其中民生银行、江苏银行、北京银行、交通银行四个变量也都出现在逐步回归法得到的方程中。因此经过分析,可以认为逐步回归法得到的回归方程是最优方程,这个方程较准确反映了华夏银行和其他银行类股票收益率之间的相关关系,且回归效果是显著的。
6. 结论
经过之前对多元线性回归方程的求解,得到的模型表达式是华夏银行 = 0.016 + 0.322 × 交通银行 + 0.296 × 北京银行 + 0.168 × 江苏银行 + 0.189 × 民生银行 + 0.150 × 兴业银行。因此,交通银行、北京银行、江苏银行、民生银行、兴业银行这五只股票的收益率都对华夏银行股票的收益率有显著影响,华夏银行会随着上述五只股票的涨跌而有相同的涨跌波动,其中尤以交通银行的影响最为明显。
在本文的最后,我们对上述结果进行简要分析,给出解释。
华夏银行成立于1992年,是我国第一家由大型国有工业企业独资筹建的银行,总部设立在北京市东城区,该银行经营发行债券,提供外汇存款、贷款、借款等业务,还可以进行国际贸易或者非贸易结算。
![](//html.hanspub.org/file/12-2580376x14_hanspub.png)
Figure 5. The coefficients of each independent variable in the regression equation (using backward method)
图5. 使用后退法求得的回归方程中各自变量的系数
![](//html.hanspub.org/file/12-2580376x15_hanspub.png)
Figure 6. The coefficients of each independent variable in the regression equation (using stepwise regression method)
图6. 使用逐步回归法求得的回归方程中各自变量的系数
近年来,华夏银行着力发展绿色金融,打造“绿色华夏”品牌和“中小企业金融服务商”品牌,同时也为京津冀协同发展做出了重大贡献 [14]。
交通银行始建于1908年,是中国近代以来历史最悠久的银行之一。交通银行正在成为一家以商业银行为主体,跨市场、国际化的大型银行集团,业务范围包括证券、金融租赁、基金管理等诸多领域,于1987年重新组建成全国第一家股份制商业银行,目前已是世界500强企业之一。
北京银行原名“北京市商业银行”,成立于1996年,是中国最大的城市商业银行,总部位于北京市西城区。截止目前,北京银行已经在众多城市设立了200多家分支机构,开辟和探索了中小银行创新发展的经典模式,获得了“中国上市公司百强企业”等荣誉称号。
江苏银行是在江苏省内无锡、苏州、南通等10家城市商业银行的基础上,合并重组而成的现代股份制商业银行。该行于2007年1月24日正式挂牌开业,是江苏省唯一一家省属地方法人银行,总部地点位于南京市。目前经营贷款、金融债券、政府债券、企业债券,提供外汇业务、保险业务,在江苏省内以及北京、上海、深圳、杭州等多个城市都设立了分行。至2014年底,江苏银行资产总额已超过1万亿元,目前正在致力于建设特色化、智慧化、综合化、国际化的一流商业银行。
民生银行成立于1996年,是中国大陆第一家由民间资本设立的全国性商业银行,总部位于北京市。该银行于2000年12月19日在上海证券交易所公开上市,经过近20年来的发展,民生银行充分发挥了“新银行、新体制”的优势,始终致力于为中国银行业探索现代商业银行建设之路,致力于为客户提供专业特色的金融服务,目前同样跻身成为世界500强企业。
兴业银行成立于1988年8月,总部设在福建省福州市,于2007年在上海证券交易所挂牌上市。兴业银行以理性创新人本共享为核心价值观,以务实敬业创业团队为精神,以真诚服务共同兴业为使命,多次获得国内各种荣誉,积极应对市场形势变化,谋求创新发展,深受各界广泛认可和一致好评。
根据以上的介绍,可以发现华夏银行、交通银行、北京银行、江苏银行、民生银行、兴业银行这6只股票在经营范围和服务项目上有很大的相似性,特别是存贷款、保险箱、外汇、债券等,这些业务也是绝大多数银行的共性,因此业务上的相似性能够解释一部分这些银行股票收益率间的关系。
同时,这些股票之间的关联还体现在城市和地区之间的联系。例如华夏银行、北京银行、民生银行总部都是设立在北京,城市内部的联系也是影响股票收益率相关关系的一种因素。交通银行虽地处上海,但和北京的这几个银行也有一定的联系,所以交通银行股票收益率的变化也能解释一部分华夏银行股票收益率的变化。除此之外,各股票公司的发展宗旨、目标、政策以及各公司之间的业务和利益往来等因素,也会对股票收益率的波动造成影响。
以上我们以银行股为例,从银行业这一行业的层面分析了影响股票收益率的因素。事实上,区域经济发展水平、行业的前景、地位以及行业生命周期等因素同样会影响股票收益率。例如对经济发展较快的地区而言,其股票收益率具有较好的预期;国家对某产业的扶持会使得该产业所属股票有更多的发展机会,发展前景较好;行业地位高低的差别会引起投资者数量以及可获得资金的差别,收益率也会由此出现差别;行业周期包括初创期、成长期、稳定期和衰退期,所处生命周期不同的行业对应的股票,其收益也必然存在差异。
总之,结合本文研究的结果和相关理论来看,可以认为股票收益率之间的联系与经营服务项目、业务往来、所属城市地区、行业发展前景等因素有关。但股票收益率的影响因素最终落脚点仍在于上市公司的财务指标上,投资者选取股票时,不仅要考虑中观行业因素,还应该结合上市公司财务数据等非系统因素,综合预测一只股票未来的投资价值和涨跌趋势,这样能在一定程度上避免盲目投资,获得较好的收益 [15]。
基金项目
本论文受中央高校基本科研业务费专项资助(2016MS63)。
附录
利用Python软件求解原始数据对应的描述性统计量的程序命令如下:
import numpy as np
import pandas as pd
data = pd.read_excel(r'C:\Users\qy\Desktop\gupiao.xlsx')
data
data.max()
data.min()
data.mean()
data.var()
data.skew()
data.kurt()
JBvalue = (119/6) * (data.skew() * data.skew() + (data.kurt() - 3) * (data.kurt() - 3) * 0.25)
JBvalue