1. 引言
股票市场作为连接投资者间的桥梁,对我国经济改革与发展起到了重要促进作用,但股票投资在拥有高收益的同时也伴随着较高的风险。因此,预测股票价格对于投资者而言有着重要的实际意义。
券商研报是指证券公司的研究人员对证券及相关产品的价值,或者影响其市场价格的因素进行分析,所作出的研究报告。研究人员依赖于市场公开信息、公司财报、调研数据等资料,对公司的经营情况和发展前景作出判断,结合逻辑分析对证券及相关产品进行投资评级。
市场上的投资机构和投资者们会通过阅读研报,来了解相关行业、企业的行业现状,搜集相关资料,理解投资逻辑,并居于此作出投资决策。其中,对于投资者和投资机构,最重要的参考标准包括:市盈率、前期涨跌幅、总市值、营业收入增长率、每股收益增长率等指标。
综合考虑以上问题,本文认为券商研报中的特征因子可以影响市场内外部各方面的因素,进而影响相关证券的交易和价格,选用券商研报中列示的17个指标,将其归纳总结,得到七类特征因子:估值因子、成长因子、盈利能力因子、动量反转因子、交投因子、规模因子和股价波动因子。通过多属性决策、自回归和神经网络模型,本文希望分析七类特征因子和特殊突发事件对于股票价格影响的大小,并可利用该模型指定投资策略,服务于股票证券投资。
2. 文献综述
以往研究中,学者们主要采用ARIMA模型或神经网络模型进行短期的股价预测。吴玉霞等(2016)运用ARIMA模型预测了未来数期股价 [1];许兴军(2011)采用BP神经网络成功判断了股价走势 [2],而彭燕等(2019)、张妮等(2021)运用LSTM递归神经网络分别预测股票价格和股票收益率 [3] [4]。此外,黄润鹏等(2015)探究上证指数和投资者情绪时间序列的相关关系,建立了向量机模型以预测股价 [5]。综上,对于股价预测模型的探索已取得了初步的成果,各种新兴模型层出不穷。
虽然前人在股价预测方面已经取得一定程度的进展,但仍然存在优化的空间。首先,量化股价模型总是针对短期股价进行预测,难以准确预测长期股价;其次,以往模型主要提出具体的预测,揭示未来几期的预计股价,未能提出一般通用的预测模型;再次,以往论文所运用的模型较单一,未能对该领域的各种成果进行融合;最后,以往模型较少关注公司突发事件对股价的影响。
本文基于以往学者研究经验,提出创新改进。第一,本文提出两种预测方式,一为对于特定的公司一般通用的预测,二为未来短期股价的预测;第二,本文着重考虑了突发事件对股价的影响,使预测在非常规时期可得到良好的修正;第三,本文运用了熵权法、线性回归模型、自回归模型以及BP神经网络模型,集合了以往学者们的重要经验。
3. 研究设计
(一) 样本选择与数据来源
本文根据2011年至2021年各大券商研报和咨询公司研究报告,对A股市场股票进行行业划分,从而选取其中具有代表性的10支股票2011年至2021年的特征指标数据。其中相关统计指标数据来源于国家统计局、同花顺、Wind,为提升模型的收敛速度和精度,所有数据均通过无量纲化处理。
本文选取具有代表性的10支股票的行业划分如表1所示。
随后,本文分别从公司估值因子、成长因子、盈利能力因子、股价波动因子、交投因子、动量反转因子和规模因子七类特征指标对公司数据进行提取,提炼了公司2011年1月至2021年9月的市盈率、市净率、市现率、市销率、营业收入增长率、营业利润增长率、每股收益增长率、经营活动产生的现金流量净额增长率、销售净利率、销售毛利率、息税前利润与营业总收入比、股票前期涨跌幅、股价前期振幅、换手率、总股本、流通股本、总市值等17个指标数据。
(二) 变量选取
赵国顺等(2009)认为公司状况是影响股价的一大主要因素 [6],同时在主流的ARIMA模型中,也采用市盈率(PE),市净率(PB),市现率(PCF),市销率(PS)作为变量。以往的研究主要以股票自身情况为自变量进行预。本文从公司状况和股票自身情况两方面入手,进行股价预测。
1) 公司状况
本文将公司状况分为公司成长因子、公司盈利因子、规模因子。
公司成长因子影响股票的现值及人们对股价的预期。宋鹏等(2012)选取总资产增长率、净利润增长率、营业收入增长率等衡量公司的成长能力 [7]。因此,本文选取每股收益增长率、营业收入同比增长率、营业利润增长率和经营活动产生的现金流量净额增长率作为衡量公司估值情况的指标。
公司盈利可直接影响公司的股价,本文采用销售净利率、销售毛利率与息税前利润与营业总收入比衡量公司的盈利能力情况。
公司规模代表一家公司的经济实力,罗琦等(2015)就以公司规模代表公司的经营状况 [8]。因此,本文选取总股本、流通股本和总市值来反映公司规模情况。
2) 股票自身情况
本文将股票自身情况分为估值因子、股价波动因子、交投因子、动量反转因子。
估值因子是对公司的内在价值进行评估。一般来讲,公司的资产及获利能力决定于其内在价值。股票的价值,代表了投资者对于公司预期未来收益,即盈利能力的看法。根据以往研究,本文选取市盈率、市净率、市现率和市销率作为衡量公司估值情况的指标。
股价波动因子和股票交投因子分别反映公司股票供求情况的变动及流动性。动量反转因子直接反映公司股票的前期走势。本文选取前期股价振幅代表波动因子,前期换手率代表交投因子,前期涨跌幅代表动量反转因子。
(三) 股价预测模型的建立
本文首先对所选的10支所选股票公司的评价指标体系中17个指标数据进行归一化处理,随后使用熵权法进行赋值,确定各指标权重,依托多属性决策模型中的加权算术平均算子,量化出公司估值因子、成长因子、盈利能力因子、规模因子、股价波动因子、动量反转因子等七类特征指标得分,再探究公司七类特征指标得分对其对应股票走势的影响。
1) 熵权法计算权重
熵权法是一个客观的赋权方法,可以最大程度上避免主观性赋权对于各部分指标量化结果的影响。熵权法依据的原理是指标的变异程度,即变异程度越高则对应的权值也就越高。
编写Matlab程序进行计算,最终,分别得出七类特征因子对应的指标权重,部分数据如表2~表5所示:
![](Images/Table_Tmp.jpg)
Table 2. Index weights of growth factors of Baiyunshan Company
表2. 白云山公司成长因子指标权重
![](Images/Table_Tmp.jpg)
Table 3. Index weights of valuation factors of Baiyunshan Company
表3. 白云山公司估值因子指标权重
![](Images/Table_Tmp.jpg)
Table 4. Index weights of profitability factors of Baiyunshan Company
表4. 白云山公司盈利能力因子指标权重
![](Images/Table_Tmp.jpg)
Table 5. Index weights of scale factors of Baiyunshan Company
表5. 白云山公司规模因子指标权重
其中X1~X14分别为白云山公司成长因子、估值因子、盈利能力因子和规模因子的指标权重。
2) 计算公司七类特征指标得分
最后,本文使用多属性决策法中的加权算术平均算子公式计算出10家公司七类特征指标的得分数值,部分数据如表6所示:
![](Images/Table_Tmp.jpg)
Table 6. Score of characteristic index evaluation system of Baiyunshan Company
表6. 白云山公司特征指标评价体系得分
3) 单位根检验与白噪声检验
本文在回归分析前,先进行平稳性检验及白噪声检验,保证t检验有效。本文以华发股份为例对变量数据进行ADF单位根检验,结果如表7所示,仅部分变量在5%的显著性水平上可拒绝存在单位根的原假设。
本文推论变量间可能存在协整关系,对其进行协整秩检验,如表8所示,根据迹检验和最大特征值检验结果,选择协整秩为4。其次,本文使用Johansen的MLE方法估计该系统的向量误差修正模型(VECM),并对其进行诊断性检验,结果如图1所示。由图1可得该模型为稳定系统。
最后,本文对所有变量进行白噪声检验,结果如表9所示,表明所有变量都非白噪声数据,具有分析价值。
![](Images/Table_Tmp.jpg)
Table 7. P-value results of unit root test
表7. 单位根检验P值结果
注:***、**、*分别表示在1%、5%、10%水平上显著;下同。
![](Images/Table_Tmp.jpg)
Table 8. Cointegration rank test results
表8. 协整秩检验结果
![](//html.hanspub.org/file/33-2621946x8_hanspub.png?20211229082228420)
Figure 1. VECM system stability discriminant diagram
图1. VECM系统稳定性判别图
![](Images/Table_Tmp.jpg)
Table 9. P-value of white noise test
表9. 白噪声检验P值
4) 线性回归结果分析
接下来,本文对解释变量和被解释变量进行回归分析。
以白云山公司为例,回归分析结果如表10所示。
![](Images/Table_Tmp.jpg)
Table 10. Linear regression analysis results
表10. 线性回归分析结果
因此,得到模型:
(1)
该模型中,各变量都代表白云山公司的指标。Price代表白云山公司的股价,Growth代表成长因子,Estim代表估值因子,Updown代表动量反转因子,Vibra代表股价波动因子,Scale代表规模因子,Exchange代表交投因子。通过线性回归模型的构建,可以得出七种因子对股价的总体影响。因此可以根据因子的变化情况预测未来的股价,设计投资策略。
如表10,在线性回归模型中,所有自变量皆在10%水平上显著。其中,公司的成长因子、估值因子、动量反转因子、交投因子、规模因子与股价成正相关关系;而盈利能力因子、股价波动因子和股价成负相关关系。
5) 应用自相关模型及神经网络模型
通过线性回归,可以得出七类特征因子与股价的基本关系,但对于具体近期未来的某个时刻,也可以用具体的方法进行精准的预测。在本节中,本文通过建立各个解释变量间的自相关模型,预测未来的解释变量趋势,再运用神经网络模型进行深度学习,预测未来股价趋势。首先,本文利用自回归模型,预测出10支所选股票对应公司下一期的成长因子得分、估值因子得分、盈利能力得分、前期涨跌幅、前期股价振幅、规模因子得分和前期换手率。随后,本文采用BP神经网络模型对公司股价进行预测。BP神经网络,即误差反向传播算法,其基本原理是通过梯度下降法,计算误差的方差,使其逐渐逼近系统模型。
以长盈精密为例,首先对其进行滞后阶数选择测试,确定对滞后项的选择,如表11所示:
![](Images/Table_Tmp.jpg)
Table 11. Test results of hysteretic order selection of variable Growth
表11. 变量Growth的滞后阶数选择测试结果
其中,变量Growth指长盈精密公司的成长因子。由表11可知,在Lag = 8时,AIC值最小,由此可以确定变量Growth的最佳滞后阶数为8。通过这种方法,可以对各个因子确定最佳滞后阶数。例如,对长盈精密各因子的最佳滞后阶数选择如表12所示:
![](Images/Table_Tmp.jpg)
Table 12. Test results of lag order selection
表12. 滞后阶数选择测试结果
由此,选择每个解释变量最佳的滞后阶数,进行自相关回归,回归结果如表13所示:
![](Images/Table_Tmp.jpg)
Table 13. Autocorrelation regression results of variable Growth
表13. 变量Growth的自相关回归结果
可得变量Growth的自相关回归模型为:
(2)
该模型中,Growth表示长盈精密的成长因子。Growth−n表示前n个时期的成长因子。该模型说明,前八个时期的成长因子都可以对本时期的成长因子造成影响,由此,我们可以通过以往的成长因子数据,预测未来的成长因子。对于其它的因子也作同等操作,即可得出每个因子的自相关回归模型,对各自回归模型做格兰杰因果检验,结果如表14所示,显示各解释变量的自回归模型的因果关系皆显著。
![](Images/Table_Tmp.jpg)
Table 14. Granger causality test of autoregressive model of explanatory variables
表14. 解释变量自回归模型的格兰杰因果检验
构建了各个因子的自回归模型后,采用神经网络模型进行深入学习。首先对数据进行归一化处理,通过Matlab函数mapminmax进行区间映射,之后再进行反归一映射得到结果;其次,创建网络,采用newff构建一个信号前向传播误差反向传播的网络,使用正切S型函数作为激活函数;最后,设置训练参数和训练网络进行仿真测试,得到结果如表15所示:
![](Images/Table_Tmp.jpg)
Table 15. Prediction results of Everwin Precision stock price
表15. 长盈精密股价预测结果
预测精度分析结果如图2所示,其中R越接近于1,则模型精度越高。
![](//html.hanspub.org/file/33-2621946x11_hanspub.png?20211229082228420)
Figure 2. Analysis results of prediction accuracy
图2. 预测精度分析结果
由图2结果可知,由该BP网络预测出的股价可信度较高,模型检验通过。
(四) 考虑突发事件的影响
突发事件是指突然发生、让人预料不到的事情,一般来说,突发事件根据其性质可以分为自然灾害、舆情影响、商业事件、公共卫生事件四类,显然四种突发事件对于不同公司的影响各不相同,本文就在此基础上考虑不同类型的突发事件所造成的影响。其次,本文所选的10支股票对应的公司可以划分为建筑业、医药业、房地产业、电子元件行业和交通物流行业这五个类别。显然,这五个行业对不同突发事件的反应程度不同,所受到的影响也不同。
1) 固定突发事件因子的构建
本文构建的固定突发事件因子是用来衡量某一类突发事件发生时对于某一个行业公司总体的影响,这种影响使用定值来进行表示。
每一类突发事件对于不同行业的影响不同,比如自然灾害事件对于建筑业的影响较大,但是对于电子元件行业的影响较小。因此,本文将某一个突发事件对于各个行业的影响分为A,B,C,D四级,其中A级说明该突发事件对本行业影响较大,D级说明该突发事件基本不会影响本行业。根据一般经验构建出突发事件影响级别表,如表16所示:
通过该图可以看出对各行业影响最大或最小的突发事件,有利于用来评估某一突发事件对于行业的影响。进一步来看,由于影响可能有正有负,且为了影响效果可以进行量化,便于后面的股价预测计算,本文引入固定突发事件因子表,如表17所示:
借由此表,可以得到固定突发事件因子。经过检验,由于不同公司的固定突发事件因子的取值较大,在熵权法的情况下,该固定因子在公司股票股价预测体系中所占的权重会较高,平均在0.2左右,导致公司股票的股价对于突发事件较为敏感,起到了标识突发事件影响的效果。
2) 加入突发事件因子后的模型修正
通过对突发事件影响的模型构建,我们得以修改之前对白云山X公司构建的股价预测模型。修正后的模型如下:
(3)
此处,各变量都代表白云山公司的指标。Price代表白云山公司的股价,Growth代表成长因子,Estim1代表估值因子,Updown代表动量反转因子,Vibra代表股价波动因子,Scale代表规模因子,Exchange代表交投因子,X是固定突发事件因子。加入了固定突发事件因子后,公司股票的股价对于突发事件较为敏感,起到了标识突发事件影响的效果。
4. 研究意义与展望
本文建立的股价预测模型参考了近年来大量的股价预测模型,将许多的主流方法及重要模型囊括于其中。以往学者研究的模型大都是从一种模型或一种角度入手,在模型的选择上或自变量的选择上较为狭隘,或在数据的收集上略有不足,而本文建立的股价预测模型集合了以往学者们的重要经验。
同时,本模型考虑了突发事件的影响,并用科学的模型对各种行业所面对的各种突发事件采取了精细而完备的分类,可行性强,易于实践,力求投资者可以对突发事件作出最及时和灵敏的反应。
本模型对股价的预测主要局限在股票市场或企业本身内部环境的影响上,未能对宏观的经济环境进行把握,没有考虑到经济市场总体的系统性风险及经济周期的运行情况。在未来的研究中,可针对宏观经济环境进行更为细致的考察,将宏观经济的指标纳入模型,对其进行补充,增强模型的解释力和预测力。
NOTES
*通讯作者。