摘 要
本文采用GM(1,1)和GM(2,1)灰色预测模型,随机选取了2020年2月6日至2020年4月30日的中小板综合指数(399101)交易数据,横向和纵向比较两种模型的预测效果,实证分析证明灰色模型预测股指的可行性。预测结果表明:灰色系统模型对于我国股指的预测更多地适用于短期且摆动变化较为单调的数据样本,这样才能较好地拟合出股指变动的规律,就长期或者数据摆动变化非单调而言,灰色系统模型对于股指的拟合效果较差,不能为股票市场的价格预测提供参考。
关键词 :灰色预测模型,股票预测,中小板综合指数
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
1. 引言
改革开放以来,我国经济快速增长,一举成为第二大经济体,在中国经济增长过程中,股票市场对于经济增长做出了卓越的贡献,主要表现在我国证券行业和上市公司对于GDP的贡献。股票市场的稳定关乎金融市场稳定,更关乎我国宏观经济的稳定。以深交所为例,深证成指、中小板指数、创业板指数等是评价相应版块的重要信息,因此,其变动备受投资者和股民的关注,但是股票市场受多种因素影响,存在着不确定性和复杂性,具体表现在股票价格的波动频繁和剧烈,这样一来,相关指数的有效预测尤为重要。灰色预测模型是灰色系统理论的重要组成部分,我们可以将整个股指系统看作为灰色系统,利用大数据和python进行数据处理,并通过GM(1,1)和GM(2,1)灰色预测模型对中小板综合指数的变动趋势进行挖掘,去验证模型的可行性和有效性。
2. 文献综述
丛春霞 [1] 在提出灰色预测模型是以GM(1,1)模型为依托,对股价进行数列和灾变预测,其中数列预测根据不同的时期,比如日、月、年,进行股指数值的预测,而灾变预测则是对股指可能发生的异常变动进行预测。张宇敬 [2] 运用灰色GM(1,1)模型对三只上市公司的股价进行为期3天的预测,研究表明,该模型仅局限于短期的预测,不适合长期预测,在股价受到不确定性因素或系统性影响时,模型预测的结果会极大地偏离实际。赵春阁 [3] 等人将灰色模型和MATLAB相结合对企业利润进行预测,证明了灰色模型适用于大数据的预测,并且在数据较少时测试结果依然准确。赵新蕖 [4] 等人研究发现GM(2,1)模型对非单调变化的原始数据序列进行预测时,多数情况下效果并不理想,针对此现状提出改进方法。Ning Xu [5] 等人在对GM(2,1)模型的预测性研究中得出改进后的GM(2,1)模型更适用于短期的工程项目预测。
3. 灰色系统模型
灰色系统理论是中国学者邓聚龙教授1982年3月在国际上首先提出来的,灰色系统理论认为在大量繁琐的数据背后,一定蕴含着某种潜在的规律,生成的灰数可以帮我们获取信息,然后系统通过获取的信息去寻找内部的变动规律,从而生成相对应的样本序列集,再将其代入python中设定的模型去对样本的发展趋势进行预测,并检验预测值和样本的拟合效果。常见的灰色模型有GM(1,1)邓聚龙估计、GM(1,1)微分方程直接求解、GM(2,1)白化微分方程等,在下面,我将选用GM(1,1)微分方程直接求解和GM(2,1)白化微分方程两种模型分别进行研究和对比。
1) GM(1,1)模型
GM(1,1)模型是最简单的灰色系统模型,其基础是常微分方程的解析解,GM(1,1)微分方程直接求解的建立过程如下:
假设有一个变量
是时间变量t的函数,它满足一阶常微分方程条件:
(1)
这里,参数a和b是两个常系数。假设参数C是任意常数,那么,该微分方程的解析解或者通解为:
(2)
如果
有一个初值,在
时,初值为
,那么,
也满足这个解,代入微分方程的通解,就有:
(3)
该函数具有指数函数的特征,由于其对于参数a和b的依赖性很强,而参数a和b又是未知的,且在正常情况下不易估计,因此,该模型也被称为灰色系统。由于只有一个变量
,且是一阶微分,所以记为GM(1,1)。
2) GM(2,1)模型
GM(2,1)和GM(1,1)的区别在于GM(2,1)是二阶常微分方程,GM(1,1)为一阶常微分方程,GM(2,1)白化微分方程模型建立过程如下:
假设变量
是关于时间t的二阶常微分方程的解,满足条件:
(13)
则该微分方程的通解为:
(14)
为了编程方便,我们对该关系式予以简化:
(15)
这里,存在关系式:
(16)
(17)
(18)
(19)
4. 实证分析
1) 数据的选取
本文选取中小板综合指数(399101) 2020年2月6日至2020年4月30日共计60日收盘指数作为变量研究对象(表1),并将全部样本分为三个时间区间,分别为5日、9以日及30日,将三个区间的数据分别代入Python系统Sympy模块中的GM(1,1)模型和GM(2,1)模型进行横向和纵向的比较分析。同时,我们对选取的数据作出几点说明:① 样本数量可以满足测试的需要;② 样本数据来源真实;③ 选取的样本期间市场未发生巨大动荡;④ 样本数据具备时效性。
数据来源:巨潮资讯网。
(数据说明:编号1的数据代表时间为2020年2月6日,编号60的数据代表时间为2020年4月30日)。
2) GM(1,1)模型求解
我们以Python为媒介建立GM(1,1)模型分别以随机选取的中小板综合指数2020年2月6日~2020年2月12日(编号1~5)、2020年2月24日~2020年2月28日(编号13~17)以及2020年3月13日~2020年3月19日(编号27~31)三个5日区间数据,2020年2月6日~2020年2月18日(编号1~9)和2020年4月13日~2020年4月23日(编号47~55)两个9日区间数据,2020年2月6日~2020年3月18日(编号1~30)和2020年2月20日~2020年4月01日(编号11~40)两个30日区间数据进行回归分析和预测,得到的相关数据以及预测拟合程度图如表2、图1~7所示:
Table 2. Data fitting effect of GM(1,1)model
表2. GM(1,1)模型数据拟合效果
其中,主要的两个指标:
RMSE (Root mean squared error)表示均方根、标准差,是MSE的平方根,用来评估模型的误差,开平方可以保持误差的单位级和我们的数据单位级保持一致,R-Squared的结果用来判断模型的好坏,其取值范围为[0,1],如果结果是 0,说明模型拟合效果很差;如果结果是1,说明模型无错误。一般来说,R-Squared越大,表示模型拟合效果越好。R-Squared反映的是大概有多准,因为,随着样本数量的增加,R-Square必然增加,无法真正定量说明准确程度,只能大概定量。
Figure 1. GM(1,1) model 5-day (No.1~5) data prediction diagram
图1. GM(1,1)模型5日(编号1~5)数据预测图
Figure 2. GM(1,1) model 5-day (No.13~17) data prediction diagram
图2. GM(1,1)模型5日(编号13~17)数据预测图
Figure 3. GM(1,1) model 5-day (No.27~31) data prediction diagram
图3. GM(1,1)模型5日(编号27~31)数据预测图
Figure 4. GM(1,1) model 9-day (No.1~9) data prediction diagram
图4. GM(1,1)模型9日(编号1~9)数据预测图
Figure 5. GM(1,1) model 9-day (No.47~55) data prediction diagram
图5. GM(1,1)模型9日(编号47~55)数据预测图
Figure 6. GM(1,1) model 30-day (No.1~30) data prediction diagram
图6. GM(1,1)模型30日(编号1~30)数据预测图
Figure 7. GM(1,1) model 30-day (No.11~40) data prediction diagram
图7. GM(1,1)模型30日(编号11~40)数据预测图
从表2中可以看出,时间区间为5日时,GM(1,1)模型对于中小板综合指数的三个5日样本区间的拟合程度R2达到0.871、0.874以及0.982,这些都是较好的拟合效果,同时,两个9日的样本区间也表现出的拟合效果良好,但是,随着选取的数据时间区间的进一步扩大,拟合程度R2出现下降,在时间区间为30日时,相较于5日和9日的时间区间出现较大的拟合程度波动,拟合程度R2下降为0.581和0.254,有一个区间较短期样本表现为断层式的下降,拟合程度R2为0.254,拟合精度极低,从图6中也可以看出样本点并未紧紧的围绕在预测线周围,模型研究结果告诉我们GM(1,1)模型对我国中小板指数的短期预测效果要远远高于长期预测,且长期预测的效果较差,并不适用于长期预测。
3) GM(2,1)模型求解
我们以Python为媒介建立GM(2,1)模型并分别以随机选取的中小板综合指数2020年2月6日~2020年2月12日(编号1~5)、2020年2月24日~2020年2月28日(编号13~17)以及2020年3月13日~2020年3月19日(编号27~31)三个5日区间数据,2020年2月6日~2020年2月18日(编号1~9)和2020年4月13日~2020年4月23日(编号47~55)两个9日区间数据,2020年2月6日~2020年3月18日(编号1~30)和2020年2月20日~2020年4月01日(编号11~40)两个30日区间数据进行回归分析和预测,得到的相关数据以及预测拟合程度图如表3、图8~14所示:
Table 3. Data fitting effect of GM(2,1)model
表3. GM(2,1)模型数据拟合效果
Figure 8. GM(2,1) model 5-day (No.1~5) data prediction diagram
图8. GM(2,1)模型5日(编号1~5)数据预测图
Figure 9. GM(2,1) model 5-day (No.13~17) data prediction diagram
图9. GM(2,1)模型5日(编号13~17)数据预测图
Figure 10. GM(2,1) model 5-day (No.27~31) data prediction diagram
图10. GM(2,1)模型5日(编号27~31)数据预测图
Figure 11. GM(2,1) model 9-day (No.1~9) data prediction diagram
图11. GM(2,1)模型9日(编号1~9)数据预测图
Figure 12. GM(2,1) model 9-day (No.47~55) data prediction diagram
图12. GM(2,1)模型9日(编号47~55)数据预测图
Figure 13. GM(2,1) model 30-day (No.1~30) data prediction diagram
图13. GM(2,1)模型30日(编号1~30)数据预测图
Figure 14. GM(2,1) model 30-day (No.11~40) data prediction diagram
图14. GM(2,1)模型30日(编号11~40)数据预测图
从表3中可以看出,时间区间为5日时,GM(2,1)模型对于中小板综合指数的三个5日样本区间的拟合程度R2达到0.836、0.858以及0.970,样本点均匀的紧紧围绕在预测曲线周围,这同GM(1,1)模型对相同数据的拟合预测结果展示一直,均为较好的拟合效果,再观察随机选取的两个9日区间的拟合效果,拟合程度R2达到0.989、0.849,延续了之前的优良效果,到此为止,实证的结果均显示GM(2,1)模型对于中小板综合指数的短期有很好的预测效果,可以作为参考,当选取的数据时间区间变为30日时,拟合程度R2分别为0.930和0.537,得到的结果表现不一致,出现相对两极化的情况,说明数据区间的选取对于模型的预测结果有一定影响,但总体上看,GM(2,1)模型对于中小板综合指数相同的两个30日区间的数据拟合预测效果要优于GM(1,1)模型,更具适用性。
5. 结论
数据说明:图15中每一列数据为同一时间区间
Figure 15. Comparison diagram of fitting degree
图15. 拟合程度对比图
通过GM(1,1)模型和GM(2,1)模型对不同时间区间的中小板综合指数预测的结果进行横向和纵向的比较可以得出,GM(2,1)模型相比于GM(1,1)模型具备更优良的纵向预测效果,GM(1,1)模型适用于短期内的预测,不具备进行长期预测的能力,GM(2,1)模型所适用的时间区间更广泛,拟合效果更好,从图15中可以看出GM(2,1)模型的折线大部分在GM(1,1)模型折线的上方,并且对于选取的7个时间区段GM(2,1)模型展现出的拟合预测效果更加平稳。另外,由于股价的变动是随机的、非线性的,在数据量变大时,样本非线性变化的特征愈加明显,这也导致无论是GM(1,1)模型还是GM(2,1)模型在对时间区间为30日的中小板综合指数进行趋势分析和预测时所得出的对比图拟合性较差。
因此,通过上述研究可以初步得出这样一个结论,GM(1,1)模型和GM(2,1)模型在面对非线性、非单调摆动的样本数据时,均不具备良好的预测效果,不能为使用者提供有价值的参考。但是,在样本数目较少时,GM(1,1)模型和GM(2,1)模型均具备预测能力,且GM(2,1)模型的预测拟合效果要更好一些,可以为投资者对股指的趋势预测提供参考和借鉴。
基金项目
本论文得到了厦门国家会计学院2019年“云顶课题:Python财务数据分析”项目的支持)。