1. 前言
随着经济水平稳中求胜的高质量发展,交易环境的不断优化,股票交易越来越成为资本市场重要的组成部分。截至2020年年末,我国股票投资者数量已突破1.5亿大关,达到1.78亿的新高度,其中自然人投资者占比99.77 ,可见股票交易是国民生产经营重要的组成部分。为发挥股票独特的经济效益,不少学者对股票价格进行建模预测,但站在有用性角度分析,股票价格始终不以个人意志为转移,不能运用到实际的操盘过程中。而选股策略作为人的能动性决定,在投资经营中可以直接影响到每股收益,是降低选股风险提高收益率的关键部长。一次周密的选股策略往往可以系统优化投资方案,最大限度的减少风险,使资金回报收益最大化。因此,对于投资者想获得更稳定的投资选股策略制定至关重要。但在实际操作过程中,投资者往往因为外部环境的改变更改原有的策略,摇摆不定的决策既没有发挥出稳定全盘的战略优势,更是放大了投资者利用心理惯性的缺点,使选股策略没有发挥预期效果和应有价值。
为了发挥选股策略的有用性,不少专家学者建立数学模型对选股策略进行分析探索,胡锡健在预测股票价格的概率和平稳分布时,采用分解马尔可夫链的方法,将历史无序时间序列融入其中,建立了回归-Markov model组合预测模型 [1];近年来,随着神经网络在解决时间序列问题上展现出的独特优势,在制定选股策略时选取神经网络及其变种作为模型的研究越来越成熟。张涵在对比短期股票波动率预测方法时发现,RNN的记忆不具有长期性,不适合单独用于股票预测分析 [2];张晓春,在处理传统RNN预测方法时,利用融合了Batch策略的LSTM模型解决了该传到过程中梯度爆炸、消失现象等特征印象 [3]。考虑到金融市场的复杂性和多变性,方义秋创新性地通过联合两个模型的RMSE损失函数,使联合模型中的每个分支发挥最大的作用 [4]。为了应对股票数据噪音较大对预测结果干预较强的影响,李晨阳利用CNN-LSTM模型预测的涨跌概率作为选股条件构建量化选股策略,减低了数据噪音对预测结果的干扰 [5]。李辉等提出RF-LSTM组合模型,用于预测股票的收盘价 [6];冯宇旭在预测分析沪深300指数对应的相关的股价中,通过LSTM模型对7中基础性指标分析,得到较为精确的预测值 [7]。齐天铧在处理股价分析研究时,创造性融合灰色模型和ARIMA [8];石琳枫在对万科集团的股票进行针对性分析时,采用了ARIMA模型,从而找到了最为适配单只股票短期预测的数学模型 [9]。众多研究表明,单一模型对股票数据的预测效果不佳,加之股票数据是长期累计的无序时间序列数据,本文选取LSTM-ARIMA模型分别对六支股票进行分析,同时对股价进行长期和短期分期,得到更加精确的结果。
2. 股票与指标选取
2.1. 股票选取
我国国内股票投资市场中股票成立时间参差不齐,不同类型股票建立至今在不同行业领域占比有着极大的差别,且不同领域股票受到的国际影响与国家扶持不同。我国A股市场外界影响介质多、范围广,单一模型和单一股价历史时间序列数据分析结果参考性、推广性说服力较差,为模拟股票投资市场的多元性和不确定性,本文选取A股市场中不同产业类型的六支股票作为代表运用LSTM-ARIMA模型进行股价预测分析,结合拟合结果与预测结果验证模型的精确度与可行性。综上所述,本文综合股票发展水平、所属板块和市值等多维因素选取了六支用于下文建立模型求解的股票,股票汇总如下表1所示。
2.2. 特征指标提取
根据同花顺网站对选取各个行业龙头代表股票进行检索,收集最具有代表性的股票企业,抽取完毕后再综合考量6支股票历年来行业综合评价和发行至今的券商研报,并从成长能力、运营能力、盈利能力、现金流、偿债能力五个特征指标中选取特征因子。为了最大程度的减少时间对预测分析的误差影响,并确保指标的有用性和关联性,本研究在2021年最新研报提取最具有参考型的因素如市盈率、净资产收益率、净利润增长率、股票当日的开盘、收盘价格和与其对应的最高价、最低价等13个指标进行相关性分析,绘制的指标特征因子相关性分析图如图1所示。
在进行指标相关性分析时,颜色越深表明与股价关联性越高。据图1可知,颜色较深且相关性指标高的指标有:最高价、收盘价、开盘价、涨跌幅和成交量表明以上指标对本次股票研究关联度最大,研究价值最高;对上述数据关联度进行熵权法权重分析,得到权重值如下表2所示。
![](//html.hanspub.org/file/43-2393723x8_hanspub.png?20220722091754441)
Figure 1. Correlation analysis of stock price characteristic factors
图1. 股价特征因子相关性分析图
![](Images/Table_Tmp.jpg)
Table 2. Index entropy weight method weight table
表2. 指标熵权法权重表
上表2所示是相关性较高的6个特征因子的熵权法权重值结果,将熵值法的权重按照从大到小排列:收盘价(21.9%) > 最低价(18.4%) > 最高价(16.1%) > 成交量(15.9%) > 开盘价(15.2%) > 涨跌幅(12.5%),由此可以得到,影响股价相关性较高的六个因子中收盘价对于股价的关联性最高,对于股票分析,可以直接用收盘价时序数据作为股价分析的原始数据。综上所述,本文选用收盘价数据作为股票分析的特征指标,通过同花顺网站收集了六支股票的收盘价数据建立时间序列模型对股票进行分析。
3. 模型选取与建立
3.1. ARIMA模型
ARIMA模型是上个世纪70年代由Box(博克斯)和Jenkins(詹金斯)提出用于处理时间序列数据的模型,又被广泛称为Box-Jenkins模型,现在被金融公司、股票行业用于处理时序股价数据。ARIMA模型有多个部分组成,AR表示处理时序数据的自动回归模拟模型,P表示处理数据回归的项数,ARIMA模型输入严格要求平稳的时间序列数据,MA是影响未来预测结果的的移平均模型,q表示移动平均项,d则表示处理数据差分次数。
ARIMA (p,d,q)模型可以表示为:
(1)
1) 时间序列平稳性检验
在进行时间序列数学建模之前首先应该进行数据的平稳性检验,若计算出
则说明模型的平稳性良好,适用于本文收盘价数据指标,所以得出:
(2)
该特征方程是一个P阶多项式,对应可以求出p个解,通过计算我们可以得到
,故该模型平稳性良好。
2) 预测模型识别
在一组时间序列模型中,若得到较为准确的预测,首先应该选择一个与时间序列相符合的线性模型。对于选择线性模型我们通常是运用计算样本相关系数与样本偏自相关系数的方法进行。
样本相关系数的公式为
(3)
其中,
(4)
(5)
偏相关系数的
的定义如下
(6)
![](Images/Table_Tmp.jpg)
Table 3. Summary of autocorrelation and partial correlation of the model
表3. 模型的自相关与偏相关性总结
根据表3可知,由于时间序列样本相关数
与偏自相关函数
皆比结尾,但被负指数函数控制收敛到零,则
则为ARMA序列。
3.2. LSTM神经网络模型
LSTM是基于RNN模型更改的长短期时间序列预测模型,可以具有更长的记忆,现在已经广泛应用于时序数据预测中。见图2,具有四个参数矩阵,主要原理是通过传输带,避免梯度消失的过程。LSTM神经网络可以有效避免长期依赖问题,输入时序股价数据,LSTM神经网络模型可以对历史走势进行记忆,股价无序波动特征可以被模型记忆,该模型对于长期股价历史数据记忆有较好的效果,在面对大幅度下跌和上涨时会受到历史记忆的影响而不会出现极端拟合,使股票信息序列的传递更加完整,同传统的神经网络与RNN相比,LSTM模型对于股票的预测更具有准确性。
![](//html.hanspub.org/file/43-2393723x21_hanspub.png?20220722091754441)
Figure 2. LSTM neural network model principle
图2. LSTM神经网络模型原理
1) LSTM中具有很多个gate,有选择的让信息通过。首先输入时序数据经过的是神经网络模型的Forgetgate (遗忘门),是由sigmoid函数与数据智能乘积两部分组成,遗忘门是模型控制选择性记忆有用数据的阀门。遗忘门选择记忆上一历史时序数据的输出值
与当前细胞新新接收的信息
,通过sigoid函数将二者联系起来计算
(7)
其中,
细胞忘记历史记忆的比率,
为sigmoid激活函数,
、
为最后一个隐含层的输出与输入,
和
是记忆遗忘权值和偏置。
2) 第二步即为inputgate (输入门),负责管理模型时序数据输入。输入门中
的值依赖于旧的状态向量
和新的输入
,其中
的计算与遗忘门类似,将旧的状态向量
和新的输入
,做contacnation,得到更高维的向量,然后算出矩阵
与这个向量的乘积得到一个向量
即通过tanh函数创造一个新向量
,最后再用sigmiod函数得到
。
(8)
(9)
其中
为记忆细胞忘记历史数据的比率,
是输入们的权值数据和
是输入门的偏置数据,
为当前细胞未被历史记忆影响的数据值,tanh是模型数据预测激活函数,
是表示细胞状态的权重数据和
是偏置数据。
3) 第三步结合两个之间并且进行更新:
(10)
式中:
是吸收了历史记忆目前这个阶段细胞的状态值,
为积累历史记忆的上一个阶段的细胞状态值。
LSMT的最后一步是计算outputgate (输出门)与遗忘门,输入门的计算一样。把旧的状态向量
和新的输入
,做contacnation,得到更高维的向量然后算矩阵
与这个向量的乘积得到向量,再用sigmiod函数得到
。其值在(−1,1)之间。
4. 模型求解及结果分析
4.1. 模型结果分析
本文所选股票是行业内发展前列的股票,实验所用时序日股价数据是从长期储存数据库(https://www.10jqka.com.cn/)中提取。选取股票跨越不同行业,长期数据选取2018年2月2日到2022年3月30日的1000个收盘价样本数据用于LSTM神经网络模型训练,选择收盘价数据前90%用于收盘价走势模拟,后10%用于股价预测,收盘价训练如下图3~7所示。
![](//html.hanspub.org/file/43-2393723x57_hanspub.png?20220722091754441)
Figure 3. Fitting graph of Gree LSTM closing price
图3. 格力LSTM收盘价拟合图
![](//html.hanspub.org/file/43-2393723x58_hanspub.png?20220722091754441)
![](//html.hanspub.org/file/43-2393723x59_hanspub.png?20220722091754441)
Figure 4. Poly Development LSTM closing price fitting diagram
图4. 保利发展LSTM收盘价拟合图
![](//html.hanspub.org/file/43-2393723x60_hanspub.png?20220722091754441)
Figure 5. Fitting graph of Focus Media LSTM closing price
图5. 分众传媒LSTM收盘价拟合图
![](//html.hanspub.org/file/43-2393723x61_hanspub.png?20220722091754441)
Figure 6. Kweichow Moutai LSTM closing price fitting diagram
图6. 贵州茅台LSTM收盘价拟合图
上图是1000个样本经LSTM神经网络模型训练拟合对比图,通过对比Forecast(预测)图形和Dailyload (时序数据)图形,分析得出股票输入的样本数据具长期下降和长期上涨的趋势,并在短期时间内出现连续波动的特点,根据样本走势图分析可以得到,该时间系列输入数据并非稳定的时序数据,LSTM在处理长期波动数据时表现出拟合程度精确性较高的走势图,对于持续上涨和持续下跌的收盘价也能够较为精准的模拟。综上,LSTM神经网络模型面对稳定性较差的时序数据时具有较好的抗干扰能力,处理持续上涨和下跌数据也不会出现极端拟合,适合用于长期时序数据模拟。
![](//html.hanspub.org/file/43-2393723x62_hanspub.png?20220722091754441)
Figure 7. ARIMA forecast of the closing price of Zhongke Haixun
图7. 中科海迅收盘价ARIMA预测图
![](//html.hanspub.org/file/43-2393723x63_hanspub.png?20220722091754441)
Figure 8. Kweichow Moutai LSTM closing price forecast
图8. 贵州茅台LSTM收盘价预测图
![](//html.hanspub.org/file/43-2393723x64_hanspub.png?20220722091754441)
Figure 9. Focus Media LSTM closing price forecast
图9. 分众传媒LSTM收盘价预测图
![](//html.hanspub.org/file/43-2393723x65_hanspub.png?20220722091754441)
Figure 10. Poly Development LSTM closing price forecast
图10. 保利发展LSTM收盘价预测图
本文将长期时序数据的后10%用于LSTM神经网络收盘价预测,得到预测图8~10如上所示。选取了中科海迅2021年6月4日到2022年3月30日的200个收盘价数据作为短期时序样本输入进行ARIMA模型训练,得出收盘价预测如图11所示,选取中粮工科2021年9月9日到2022年3月30日的100个收盘价数据作为短期时序样本输入进行ARIMA模型训练,得出收盘价预测如图12所示。同时还利用2021年6月4日至2022年3月30日的200个收盘价数据制作格力和贵州茅台的ARIMA模型预测曲线如图13~14所示。
![](//html.hanspub.org/file/43-2393723x66_hanspub.png?20220722091754441)
Figure 11. ARIMA model prediction of COFCO’s closing price
图11. 中粮收盘价ARIMA模型预测
![](//html.hanspub.org/file/43-2393723x67_hanspub.png?20220722091754441)
Figure 12. Gree ARIMA closing price forecast
图12. 格力ARIMA收盘价预测图
ARIMA模型曲线图实际值(黑色曲线)和拟合值(灰色曲线)走势十分吻合,选取两支股票输入具有突然下跌、持续上涨和持续下跌的特点,模型训练出来的趋势线对于波动处理极其合理,短期预测精确性较高。LSTM神经网络长期时序数据预测图得到Observed(实际值)和Predicted(预测值)曲线走势颇为相近,实际值出现连续上涨、下跌和波动,预测值趋势也会出现一一对应的趋势。格力集团在2022年1月出现了股价急速下跌,保利地产在2022年3月初出现了1周的持续下跌和1周的持续上涨,涨幅波动巨大,LSTM模型模型预测曲线给出了准确的预测趋势和较为精确的预测值。对比格力和贵州茅台ARIMA模型制作的预测图和LSTM预测图得到,两个模型都得出了精确的拟合曲线,LSTM神经网络模型建立长期时间序列数
![](//html.hanspub.org/file/43-2393723x68_hanspub.png?20220722091754441)
Figure 13. Kweichow Moutai ARIMA closing price forecast
图13. 贵州茅台ARIMA收盘价预测图
![](//html.hanspub.org/file/43-2393723x69_hanspub.png?20220722091754441)
Figure 14. Gree LSTM closing price forecast
图14. 格力LSTM收盘价预测图
据对股票进行分析后预测,在面对股票长期下跌和多次起伏情况未出现极端预测情况,ARIMA模型建立是利用短期的时序数据,获得的曲线实测值和拟合值曲线极度吻合,但是由于股价波动大,受外界影响大,此模型不适合用于长期的训练和预测。因此,将LSTM模型用于长期预测和训练,将ARIMA模型用于短期的预测和训练,两个模型结合分析,对于股价的准确度会再上一个台阶,更有利于投资者参考。
4.2. 误差分析
本文利用长期时序数据建立LSTM神经网络模型和利用短期时序数据建立ARIMA模型对选中的不同行业的六支股票分别进行长期时间序列训练和短期时间序列训练,得到了较为精确的模型图,但是股票是非线性的时序数据,市场波动、政府政策和公司负面新闻都会影响股价走势,为探究模型是否具有较高的精确性和可推广性,利用模型预测2022年3月31日收盘价并和实际收盘价对比进行误差分析如下表4所示。
![](Images/Table_Tmp.jpg)
Table 4. Prediction model error analysis
表4. 预测模型误差分析
本文利用所构建的LSTM神经网络模型对股票进行长期训练具有较为精确的拟合曲线和预测走势图,利用ARIMA模型训练短期时间序列数据,对短期内收盘价进行训练并预测,短期内得到的数据结果较为精确。上表是两个模型不同样本输入量输入收盘价预测数据,收盘价预测值和收盘价实际值相差甚微,六支股票的误差比都小于0.01,不难发现,两个模型在长期预测和短期预测时误差比相对较小。综上可以进一步得到,本文建立的两个模型对于股价趋势线拟合较为准确,对于不同股票的收盘价的预测较为精确,模型处理时间序列类股价具有推广价值。
5. 结束语
为了模拟多元化的股票市场,本文将LSTM神经网络模型运用于对长效时间序列数据的分析,对于短期时间序列数据则选用ARIMA模型进行推算。首先,建立的2018年2月2日至2022年3月30日收盘价长期走势图得到输入的原始数据是无序的时间序列数据,再将无序的时间序列收盘价数据作为输入建立LSTM神经网络模型和ARIMA模型。其次,对比预测曲线和真实曲线可以得到,LSTM神经网络模型对于长期股价数据模拟和预测具有较精确的拟合,对比ARIMA模型预测走势和实际走势图可以得到,短期数据利用ARIMA模型预测误差小,模型预测效果优异。最后得到,LSTM神经网络模型和ARIMA模型都是股价走势分析的实用且精确的工具,预测效果能够对选股做到有效指导,但是股价是无序的受外界波动的时序数据,容易被国际形势、政府出台政策和一系列负面因素影响。要想制定收益高、风险性低和准确性较高的选股策略,结合LSTM神经网络模型和ARIMA模型对股票同时进行长短期分析,能得到更精确预测趋势和结果。
基金项目
本文系2020年四川省、重庆市社科规划“成渝地区双城经济圈”重大项目“成渝地区双城经济圈:打造区域协作高水平样板及区域协同发展评价指标研究”(项目编号:SC20ZDCY009)研究成果。