基于深度学习技术的股价预测及量化交易策略探讨
Stock Price Prediction and Quantitative Trading Strategy Based on Deep Learning
DOI: 10.12677/aam.2024.136273, PDF, HTML, XML, 下载: 51  浏览: 110 
作者: 张钟意, 周 梅:北方工业大学理学院,北京
关键词: 深度学习技术股价预测量化交易Deep Learning Investment Strategy Quantitative Trading
摘要: 近几年来,卷积神经网络(CNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)和注意力机制模型等深度学习技术,在金融科技领域尤其是股价预测和量化交易策略的制定上,已经成为一个非常活跃的研究领域。论文通过分析上证50指数及其成分股的数据,验证了BiGRU-CNN-Attention模型在预测准确性上的优势;考虑到不同投资者的风险承受能力和收益预期,论文设计了保守型、稳健型和极端激进型三种不同风险偏好的投资策略,揭示了在风险和回报之间平衡的效果。结果表明,结合深度学习模型预测和适当的投资策略,不仅可以有效提升投资组合的性能,还可以为投资者提供了定制化的投资方案,进一步凸显深度学习技术在金融市场决策中的应用潜力。
Abstract: In recent years, deep learning technologies such as Convolutional Neural Networks (CNN), Long Short Term Memory Networks (LSTM), Gated Recurrent Units (GRU), and Attention Mechanism Models have become an active research field in the field of financial technology, especially in stock price prediction and quantitative trading strategy formulation. The paper verifies the advantage of the BiGRU-CNN Attention model in prediction accuracy by analyzing the data of the Shanghai Stock Exchange 50 Index and its constituent stocks; considering the risk tolerance and return expectations of different investors, the paper designs three investment strategies with different risk preferences: conservative, robust, and extremely aggressive, revealing the effect of balancing risk and return. The results indicate that combining deep learning models with appropriate investment strategies can not only effectively improve the performance of investment portfolios, but also provide customized investment plans for investors, further highlighting the potential application of deep learning technology in financial market decision-making.
文章引用:张钟意, 周梅. 基于深度学习技术的股价预测及量化交易策略探讨[J]. 应用数学进展, 2024, 13(6): 2845-2857. https://doi.org/10.12677/aam.2024.136273

1. 引言

现代金融领域,投资决策科学化的核心在于利用先进的技术提高资本的回报率。深度学习作为金融科技领域的关键技术之一,其在股价预测和量化交易策略中的应用已经引起了广泛的关注。CNN、LSTM、GRU和注意力机制等深度学习技术因其在处理时间序列数据方面的独特优势,被广泛应用于股票市场分析和预测中。本文将深度讨论如何利用这些技术来提高股价预测的准确性。

同时,作为现代投资组合管理的基石,马科维茨投资组合理论通过组合多种资产来降低特定资产的风险[1]。结合马科维茨理论,可以使用优化算法来确定最优的股票配置比例,以实现在给定风险水平下的最大预期收益,或在给定预期收益下的最大风险降低。因此,根据投资者的不同风险偏好,考虑投资者的风险偏好,设计多种投资策略,以满足不同投资者的需求。

2. 模型原理

2.1. CNN神经网络

CNN,即卷积神经网络(Convolutional Neural Network),是一种用于处理具有网格结构数据的深度学习模型。CNN通常在图像处理中表现优秀,但它们也可以用来识别时间序列数据中的模式和特征[2]。CNN的核心思想是通过卷积操作和池化操作来提取输入数据的特征,并且通过多层次的神经网络结构来实现对这些特征的抽象表示[3]。CNN模型包含卷积层、池化层和全连接层。卷积层将输入特征图 x i:i+n1 与卷积核w进行卷积运算,再加上偏置b,并通过激活函数f进行非线性变换。卷积操作的数学表达式可以表示为:

c i =f( w x i:i+n1 +b ) (1)

池化层通常用于降低特征图的尺寸。最大池化和平均池化是两种常见的池化操作。最大池化操作的数学表达式为:

p i =max( C ) (2)

池化后的结果P通过全连接层后传入输出层,利用softmax函数进行分类,返回的是预测概率,输出的值在0~1之间,0表示完全消极,1表示完全积极,公式为:

p( y|P, w s , b s )=softmax( P w s + b s ) (3)

2.2. LSTM网络

LSTM网络,全称为长短期记忆网络,是一种特殊类型的循环神经网络,此神经网络特别适合处理和预测时间序列数据中的长期依赖关系,这对于金融市场中的价格预测等长序列数据表现优异[4] [5]。它们可以捕捉到价格变动的长期趋势和周期性波动,原理图如图1所示。

Figure 1. LSTM schematic diagram

1. LSTM原理图

网络包括遗忘门,输入门和输出门。遗忘门决定哪些信息需要从 t1 时刻的细胞状态 C t1 中遗忘,输入门决定哪些信息需要从添加到新的细胞状态 C t 中,输出门决定哪些信息从当前时刻的LSTM单元中输出,如公式(4)。

f t =σ( W f [ h t1 , x t ]+ b f ) i i =σ( W i [ h i1 , x i ]+ b c ) C ˜ t =tanh( W c [ h t1 , x t ]+ b c ) C t = f t C t1 + i t C ˜ t o t =σ( W o [ h t1 , x t ]+ b o ) h t = o t tanh( C t ) (4)

2.3. GRU网络

GRU是LSTM的简化版本,具有类似的性能,但参数更少,计算效率更高[6],它将LSTM的遗忘门和输入门合成了一个单一的更新门。原理图如图2所示。

GRU把LSTM中的遗忘门和输入门用更新门来替代。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,重置门用于控制前一状态有多少历史信息被写入到当前的候选集 h ˜ t 上,如公式(5)。

r t =σ( W r x t + U r h t1 + b r ) z t =σ( W z x t + U z h t1 + b z ) h ˜ t =tanh( r t U h h t1 + W h x t + b h ) h t =( 1 z t ) h t + z t h ˜ t (5)

Figure 2. GRU schematic diagram

2. GRU原理图

2.4. 双向传播

单向传播可能无法捕捉到序列中的所有重要模式和依赖关系,因为它只能沿着一个方向处理输入序列。而双向传播则能够综合考虑两个方向上的信息,更全面地理解序列数据中的结构和规律。在处理序列数据时模型同时考虑到过去和未来的信息,从而提高了模型对序列数据的建模能力。如图3,这是双向的BiLSTM,其中一个是正向去处理输入序列,相对应的另一个则是反向处理序列,处理之后将两个LSTM的输出进行连接得到最终的BiLSTM的输出结果。正向的LSTM得到一个结果向量,反向的LSTM同样得到另一个结果向量,而后将正向和反向的结果向量进行拼接[7]。双向传播不仅仅局限于LSTM,GRU等其他网络同样试用。

Figure 3. BiLSTM schematic diagram

3. 双向LSTM原理图

2.5. 注意力机制

注意力机制是一种用于增强神经网络模型性能的技术。注意力机制可以帮助模型在处理大量输入数据时,聚焦于最关键的信息[8],在许多任务中引入注意力机制可以显著的提升模型的性能。在神经网络中引入注意力机制可以使模型在处理输入数据时,对不同部分的信息分配不同的注意力权重,从而提高模型的表现。如公式(6)其中Q是查询矩阵,K是键矩阵,V是值矩阵,d是矩阵内数据的维度。查询矩阵、键矩阵和值矩阵是由相同的输入分别与三个不同的权重矩阵相乘而得到的。

Attention( Q,K,V )=softmax( Q K T d )V (6)

2.6. 马科维茨投资组合理论

马科维茨投资组合理论(Markowitz Portfolio Theory),由经济学家哈里·马科维茨(Harry Markowitz)在1952年提出,是现代投资组合管理理论的基石。该理论的核心观点是:1) 投资者在追求最大化期望回报的同时,应尽量最小化风险。风险被定义为投资回报的不确定性,通常用回报率的标准差来衡量;2) 投资组合的风险不仅取决于单一资产的风险,更依赖于资产间的相关性。通过投资于不完全相关的资产,可以实现风险的分散化,从而降低整体投资组合的风险。因此,马科维茨提出了有效边界(Efficient Frontier)的概念,即在给定风险水平下提供最大期望回报的投资组合集合;3)通过分析资产的期望回报率和回报率的方差来选择资产组合[9],模型如公式(7)。

min σ 2 ( r p )= x i x j Cov( r i , r j ) r p = x i E( r i ) x i 0, x i =1 (7)

其中: r p 为股票组合的投资收益, x i 为有价证券的投资比重, σ 2 ( r p ) 为组合投资方差,表示组合总投资风险, Cov( r i , r j ) 为证券组合的协方差。

3. 股价预测

3.1. 数据来源及数据处理

本文选取了自2018年1月2日至2023年12月29日期间的上证50指数及其成分股的交易数据进行研究,共计1457个交易日,所有的股票数据均来自Tushare数据平台。由于上证50指数每半年进行一次调整,剔除表现不佳的股票并重新选择表现较好的股票,因此,该期间成分股的数量为90只股票。我们按照日期将数据集划分为训练集和测试集。训练集是数据日期在2023年06月01日之前的数据,测试集是数据日期在2023年06月01日之后的数据。

3.2. 模型评价指标

在股价预测模型的评价中,均方误差(MSE)、平均绝对误差(MAE)和决定系数(R2)是三种常用的统计指标,它们各自从不同的角度衡量模型的预测性能。

均方误差(Mean Square Error, MSE):是预测误差的平方的平均值,它同时考虑了误差的大小和误差方向,因此在模型评估中能够更敏感地捕捉到大的预测偏差,值越小模型的拟合效果越好。计算如式(8)所示,

MSE= 1 n i=1 n ( y t y ^ t ) 2 (8)

平均绝对误差(Mean Absolute Error, MAE):表示预测误差的绝对值的平均值,它衡量的是预测值与实际值之间的距离,但没有考虑误差的方向。MAE对所有误差一视同仁,不会因为误差的符号而减少其影响,值越小模型的拟合效果越好。计算如式(9)所示:

MAE= 1 n i=1 n | y t y ^ t | (9)

决定系数(R2):是衡量模型拟合优度的指标,表示模型能够解释数据方差的比例,值介于0到1之间,值越接近1,表示模型的解释能力越强,预测准确度越高。计算如式(10)所示:

R 2 =1 ( y i y ^ i ) 2 i ( y i y ¯ i ) 2 (10)

3.3. 实验结果

我们通过上证50指数来选择拟合效果最好的模型,选择开盘价、最高价、最低价、换手率、成交量和成交金额作为特征变量来预测未来一天的收盘价,窗口期为15,学习率为0.001,训练轮次为500。

表1为模型拟合效果,我们可以看出,在7个组合模型中,BiGRU-CNN-Attention模型表现最好,R2为0.94897,同时MSE和MAE的值也较小。

Table 1. Comparison of model fitting effects

1. 模型拟合效果对比

组合模型

R2

MSE

MAE

CNN-Attention

0.89531

0.04801

0.15371

LSTM-Attention

0.93069

0.06931

0.18499

BiLSTM-Attention

0.93555

0.06445

0.19049

BiLSTM-CNN-Attention

0.93956

0.06044

0.18433

GRU-Attention

0.93924

0.06076

0.17838

BiGRU-Attention

0.94680

0.05320

0.16863

BiGRU-CNN-Attention

0.94897

0.05103

0.16750

对应的七个模型真实值和预测值的折线图,如图4所示。我们可以看出BiGRU-CNN-Attention模型的拟合效果最好。

Figure 4. Model fitting effect image

4. 模型拟合效果图

4. 选股及量化交易

4.1. 预测选股

在上一节中,我们通过对上证50指数进行预测和评价,选择出了准确度最高的BiGRU-CNN-Attention模型。我们继续使用该模型对90只成分股进行了拟合,并预测出2023年6月1日到2023年12月8日的收盘价格。以下展示了其中2只股票真实值与预测值的散点图。大部分股票的预测值和真实值的散点图(如图5图6所示)显示出我们选用的模型具有相对较高的准确度。

Figure 5. Scatter plot of Shanghai Pudong Development Bank’s predicted true value

5. 浦发银行真实值预测值散点图

Figure 6. Scatter plot of predicted true values for Company 360

6. 三六零真实值预测值散点图

在完成所有股票的预测后,我们需要筛选出收益率较高的股票进行量化投资。筛选方法是计算自2023年6月1日至2023年12月8日所有股票的收益率。计算收益率方法如下:

R t 为报告期的收益率, P t 为在报告期的收盘价格, P m 为基期的收盘价格,则收益 R t 为:

R t = P t P m P m (11)

其中的基期为2023年6月1日,报告期为2023年12月8日。通过计算我们计算得到了90只成分股在此期间的收益率,其中收益率靠前的几只股票如表2所示。通过与实际的收益率排名进行比较,可以看出我们得出的准确度整体相对较高。最终我们选取收益率前5的股票作为投资对象,他们分别是汇顶科技,陕西煤业,长城汽车,药明康德,中国神华。

Table 2. Top 7 stocks with half year returns

2. 半年收益率前7的股票

序号

股票名称

真实收益率

预测收益率

1

汇顶科技

0.3159

0.3217

2

陕西煤业

0.1493

0.1411

3

长城汽车

0.1385

0.1269

4

药明康德

0.1326

0.1197

5

中国神华

0.0933

0.0990

6

山西汾酒

0.0899

0.0837

7

韦尔股份

0.0784

0.0786

4.2. 长期持有策略和马科维茨投资组合

在选取完上述四只股票后,我们对这几只股票的预测进行量化交易模拟,基于马科维茨投资组合理论进行组合投资,并长期持有。长期持有策略要求在一定期间内持有固定权重的股票,而马科维茨投资组合理论则是为了优化收益与风险之间的比例。在我们的实验中,我们采用线性投资组合优化的方法对进行了模拟,即总权重和为1,尝试不同权重的方法以确定最佳的投资配置。在分析汇顶科技、陕西煤业、药明康德、长城汽车和中国神华这五只股票后,我们制定了三种投资策略:保守型、稳健型和极端激进型,以适应不同投资者的风险偏好和预期回报。

保守型策略,旨在通过分散投资减少风险。依照此宗旨,最终我们通过实验确定此策略性下汇顶科技的投资比例为0.1189,陕西煤业为0.33,药明康德为0.0158,长城汽车为0.0727,中国神华为0.4626。这种策略通过均衡地分配投资于不同的股票,旨在保护投资组合免受任何单一股票不利表现的重大影响。

稳健型策略,旨在保守型和激进型之间取得平衡。在这种策略下,我们通过实验确定了股票的投资比例为汇顶科技的投资比例略升至0.119,陕西煤业保持不变,药明康德、长城汽车和中国神华的比例略有降低。这种策略试图在降低风险和追求增长之间寻找更好的平衡点。

极端激进型策略,则是将所有资金投入到汇顶科技一只股票上。这种策略承担了极高的风险,但也为获得更高的潜在回报开辟了可能。

最终收益如表3所示,可以看出保守型策略的最终收益为11,783.07元,年收益率为11.78%;稳健型策略的最终收益稍高,为12,200.07元,年收益率为12.201%;而极端激进型策略的最终收益达到36,000.08元,年收益率高达36.00%,表明投资者如果愿意承担更高的风险,可能会获得更高的收益。

Table 3. Investment proportions and returns for different investment types

3. 不同投资类型投资比重及收益

项目

保守型

稳健性

极端激进型

汇顶科技

0.1189

0.119

1

陕西煤业

0.33

0.330

0

药明康德

0.0158

0.016

0

长城汽车

0.0727

0.073

0

中国神华

0.4626

0.463

0

最终收益

11,783.0707

12,200.07

36,000.08

最终收益率

11.78%

12.201%

36.00%

图7是对不同权重进行投资组合优化,图像清晰地展示了投资组合的预期收益与波动性之间的关系形成了一个明显的前沿区域,通常被称为有效前沿。有效前沿上的投资组合代表了在给定的风险水平下可以达到的最大预期收益。通过改变投资组合中的资产分配比例,投资者可以在风险和回报之间做出权衡。

Figure 7. Scatter plot of investment portfolios with different weights

7. 不同权重投资组合散点图

从图中可以看到,保守型策略(标记为橙色星星)具有较低的预期收益(0.23)和较低的波动性(0.09),表明这种策略适合风险厌恶型投资者。而稳健型策略(标记为蓝色星星)则显示出较高的预期收益(0.34)但也伴随着更高的波动性(0.11),适合那些能够接受中等水平波动性的投资者。最极端激进型策略(标记为绿色星星)则预示着更高的预期收益(0.65),但也带来了相当高的波动性(0.22),这种策略可能吸引那些追求高回报并能够承担高风险的投资者。

在此图中,我们特别关注了夏普比率,计算公式如下:

Sharpe Ratio= E( R P ) R f σ p (12)

其中,无风险收益率 E( R P ) 为年化收益率, R f 为无风险收益率, σ p 为策略年化波动率,它是衡量风险调整后回报的一个关键指标。颜色的深浅变化揭示了夏普比率的波动,其中较深的颜色对应于更高的夏普比率。这表示对于每单位承担的风险,该投资组合提供了更多的预期超额回报。因此,在选定投资组合时,投资者应综合考虑预期收益、波动性以及夏普比率,这一做法旨在最大化调整风险后的回报,确保投资决策的精确性和效益性。通过这种多维度的视角分析,我们能够理解投资组合选择与投资者风险偏好之间的复杂关系。投资者必须根据自身的风险容忍度、市场预期和投资目标来选择最适合自己的投资策略。

回测(Backtesting)是一种模拟交易策略在历史数据上的表现的方法,通过评估交易策略的有效性、风险和潜在收益,可以揭示出在历史市场条件下各策略的行为模式。在图8所示的回测分析中,我们观察了不同投资策略在六个月期间的表现。

保守型投资组合(呈现为橙色线条)所体现的是一个低波动性策略,适合那些寻求稳定增长并且倾向于最小化风险的投资者。该策略在所选时段内维持了平稳的增长轨迹,即使面临市场波动也显示出了抵御下行风险的能力。

稳健型投资组合(呈现为蓝色线条)则采取了中等风险策略,它在波动性和预期回报之间寻求平衡。这一策略在某些时段表现出较为显著的增长,但也暴露于更大的市场波动性中,这可能吸引那些愿意承担更多风险以获得潜在高回报的投资者。

极端激进型投资组合(呈现为绿色线条)在回测期间表现出最高的波动性,其显著的短期增长后跟随着一定的回撤,这反映了高风险、高回报策略的典型特征。它可能是对于那些高风险容忍度且寻求短期内显著资本增长的投资者的一个有吸引力的选择。

Figure 8. Three investment strategy backtesting charts

8. 三种投资策略回测图

通过分析发现,不同的投资策略适合不同的风险承受水平。保守型策略通过分散投资来降低风险,而极端激进型策略虽然可能带来更高的回报,但也伴随着更大的风险。在实际投资中,投资者应根据自身的风险偏好来选择适当的策略,并时刻注意市场动态和潜在风险,以确保资产安全。

5. 结论

本研究展示了深度学习技术在股价预测和量化交易策略中的应用,特别是如何利用BiGRU-CNN-Attention模型来提高预测的准确性。

首先,通过上证50指数及其成分股,我们得出在7个组合模型中,BiGRU-CNN-Attention模型表现最好,进一步通过比较,得出BiGRU-CNN-Attention模型能更精确预测股价,并筛选出表现优异的股票进行投资。

其次,探讨了不同的投资组合策略的风险承受能力和预期回报。我们从保守型到极端激进型,每种策略都根据特定的风险承受能力和预期回报进行优化。实证分析结果表明,采用合适的投资策略,能有效地平衡风险和回报,优化资本配置。这些策略的实施不仅提升了投资组合的整体性能,也为投资者提供了根据个人风险偏好定制投资方案的可能。

最后,得出结合深度学习模型预测和适当的投资策略,不仅可以有效提升投资组合的性能,还可以为投资者提供了定制化的投资方案的结论,进一步凸显深度学习技术在金融市场决策中的应用潜力。

我们相信,随着机器学习技术的不断进步和金融市场数据的日益丰富,未来金融投资领域的决策将更加科学化、精准化,帮助投资者实现资本的最大化增值。

参考文献

[1] 张智颖, 任志明, 陈为民, 廖兵. 分散化投资策略在新型研发机构风险投资中的应用——基于Markowitz投资组合理论视角[J]. 科技管理研究, 2022, 42(22): 145-152.
[2] 蒙懿, 徐庆娟. 基于CN[N-BiLSTM和注意力机制的股票预测[J]. 南宁师范大学学报(自然科学版), 2021(4): 70-77.
[3] 陈虹宇. 深度学习在金融时间序列预测中的应用研究[D]: [硕士学位论文]. 大连: 辽宁师范大学, 2023.
[4] 谢琳. 基于LSTM-XGBoost组合模型的股价预测研究[D]: [硕士学位论文]. 北京: 中央民族大学, 2022.
[5] Jin, Z., Yang, Y. and Liu, Y. (2020) Stock Closing Price Prediction Based on Sentiment Analysis and Lstm. Neural Computing and Applications, 32, 9713-9729.
https://doi.org/10.1007/s00521-019-04504-2
[6] 郝啟钧. 基于联合损失函数CNN-GRU模型的股票价格预测研究[D]: [硕士学位论文]. 济南: 山东财经大学, 2023.
[7] 王嘉增, 张新生. 基于MDT-BiLSTM模型的个股价格预测研究[J]. 经营与管理, 2024(1): 13-22.
[8] 范辉, 朱勇丞, 李晋江. 基于注意力机制和特征融合的股票预测方法[J]. 山东工商学院学报, 2024, 38(1): 57-68+76.
[9] 郜笑颖, 黄莹, 郭思敏, 原彰. 基于马科维茨模型的中医药股票组合分析——以片仔癀、华润三九及云南白药为例[J]. 现代商业, 2020(35): 82-84.