1. 引言
在如今的金融、经济等商业场景中,计算机技术有着广泛的应用 [1] [2] 。而在股票市场中,计算机技术主要用于金融数据分析与挖掘、算法交易、风险管理和量化交易策略的开发 [3] 。其中量化交易策略是利用统计模型进行自动投资交易策略的过程。在此过程中,量化交易策略会严格按照最初设计好的交易逻辑进行交易,不会因为投资者的主观情绪做出买入和卖出股票的决定 [4] 。现如今有不少金融领域的研究着重于如何使用计算机技术构造量化策略。Yan等人使用了RF模型和传统布林带策略,构造出了利用模型预测结果和布林带进行买卖操作的策略 [5] 。而在股票交易的涨跌中,波动率经常用于衡量股票价格在某个时间范围内上下波动的幅度。波动率在金融工程领域比较常见,通常被定义为股票日收益率的标准差。被用于衡量股票收益数据分散程度的统计量和衡量金融市场中的期权价值 [6] 。波动率越大,则表示股票收益率的分散程度越大;股票价格的波动程度越大。因此,波动率可以用来度量股票的风险和偏离程度。在此研究中,我们尝试使用不同的特征变量构造方法和机器学习模型组成的双融合模型预测股票未来的波动率,利用预测的波动率和历史波动率线构造量化交易策略。为了方便观察收益或损失,我们为每只股票建立了一个模拟交易环境。通过香港股市的股票实验结果,我们发现采用波动率量化交易策略可以获得正向的收益。
2. 文献综述
目前许多研究人员和投资人希望可以借助数学统计模型或者计算机技术算法在投资理财中获得超额收益。在机器学习和深度学习被广泛应用之前,传统的时间序列模型在金融预测中占有很重要的地位。Kumbure等人对近些年的金融股票价格预测做了很详细的描述总结以及附上了相关的研究报告 [7] 。ARIMA和GARCH等传统统计时间序列模型被广泛用于预测股价或者风险预测。目前基于传统统计时间序列模型的使用流程都已经趋于成熟,并在预测和风险管理领域均有广泛的应用。近些年随着人工智能和大数据等概念的热度持续提高,很多研究都致力于使用机器学习分类模型或者回归模型预测股票价格的涨跌或者股票未来的价值 [8] [9] 。在传统的机器学习应用领域,Basak等人的研究使用了Xgboost和RF对不同交易期下的美国股票价格进行预测,得到了在不同标签的设定下股票未来的涨跌会有显著的不同 [10] 。类似的,有研究人员使用集成学习模型来预测经过滑动平均法处理后的股票价格,发现使用滑动平均线作为标签的预测误差较小 [11] 。一些学者认为机器学习模型训练前需要构造出与研究问题相关的特征,模型才能表现出比较好的拟合效果。Alsulmi等人构造了指数移动平均线、三重指数移动平均线、能量潮等31个股票技术特征来预测沙特的股票 [12] 。
随着计算机技术的发展,深度学习算法和更加丰富的数据源也被用于研究股票涨跌。Vijh等人使用了神经网络模型对在美国上市的四间公司股票价格进行预测,通过与机器模型对比,发现神经网络模型具有更小的误差 [13] 。除了单纯使用历史股价数据进行预测,有的研究会考虑使用更加丰富的数据源进行分析,Khan等人通过收集社交媒体和财经新闻数据,经过筛选分析得到投资者对金融市场乐观或者悲观的情绪分数,从而方便对未来股票价格进行更加准确的预测,研究中还指出使用文本数据构造的变量对不同类型的股票预测具有不同的效果 [14] 。
至今为止,大部分的研究都侧重于股票的涨跌和未来价格预测,关注股票的波动率预测的研究却相对较少。然而现实交易中波动率在金融市场中也占有很重要的地位。有研究尝试结合GARCH模型和Support Vector Machine (SVM),构造出了GARCH-SVR模型对市场风险进行预测 [15] 。然而这些研究都只是停留在预测和误差对比的阶段,几乎没有研究尝试使用预测的波动率作为量化策略中的交易信号。在本文中,我们提出了一种使用预测的波动率来进行量化交易策略的新想法。我们的目标是通过双融合模型预测第二天的波动率走势,结合历史的波动率趋势线来做出买入和卖出操作的决策。通过一套完整的模拟交易框架,我们能够科学地观察基于波动率的量化交易策略的盈利能力。
3. 研究方法
本研究中的整体框架如图1所示,我们的研究目标是使用时间序列模型和机器学习相结合的方法来预测香港股市中的7只股票的未来波动率,最后使用未来波动率构造合适的量化交易策略。首先,我们会使用原始股票数据集构造有利于对波动率预测的特征变量。在建模阶段,我们首先会使用GARCH、GJR-GARCH和EGARCH模型对历史波动率进行建模,在本研究中我们将使用滑动窗口的方法对时间序列模型进行动态建模。然后使用构建的特征和时间序列模型建模预测的波动率相结合,组成全新的特征变量,再使用4种机器学习模型对未来的波动率进行预测。最终,我们根据不同双融合模型预测的未来波动率进行模拟交易实验,比较不同双融合模型下的波动率量化交易策略的获利能力。
3.1. 数据准备和预处理
香港拥有完善的市场政策和悠久的金融产品交易历史。在数据选取方面,我们从香港交易所选取了7只股票作为样本,它们分别是汇丰控股(0005)、香港交易所(0388)、电能实业(0006)、港铁公司(0066)、长江基建集团(1038)、腾讯控股(0700)和比亚迪股份(1211)。我们在雅虎金融网站下载了这些股票的日间交易数据集,时间跨度为2010年1月1日至2023年12月31日 [16] 。这些股票数据包括五个变量:开盘价(Open)、最高价(High)、最低价(Low)、收盘价(Close)和成交量(Volume)。除了这些原始数据,我们还会构造波动率相关的特征。首先我们根据收盘价计算出股票的每日收益率,记为
,而波动率的定义则为过去一段时间范围内的股票每日收益率的标准差,在此项研究中,我们定义波动率为过去30天的标准差,即n = 30。
除了当天的波动率
,过去五天的波动率特征
、
、
、
和
也被用作机器学习模型的特征变量。这些自变量使算法更容易识别股票波动率变化的趋势。同时,我们使用
作为机器学习模型的因变量,即未来一天的波动作为将要预测变量。
另外,我们会使用传统的波动率预测时间序列模型,例如GARCH、GJR-GARCH和EGARCH模型对历史波动率进行建模,我们将使用这三种模型预测的波动率作为特征输入进机器学习模型中。GARCH模型是一种经典的时间序列模型,经常用于预测估计金融资产收益率的波动性。GARCH模型能够捕捉到波动率的聚集性和厚尾性。标准的GARCH(p,q)模型的公式如下所示。其中预测变量
是时间t的条件方差,
是收益率的扰动项。剩下的
,
和
是模型参数。
而GJR-GARCH模型是GARCH模型的更新版,它通过引入一个指示函数来捕捉金融资产收益率的不对称波动性,其公式表示如下。其中
为指示函数,当
小于0时,
取1;否则取0 [17] 。
EGARCH模型则是另一种GARCH模型的更新版,EGARCH模型的特点是对数波动率的建模,这样就不需要对模型参数的范围进行限制。EGARCH模型的表示如下所示 [18] 。
这三种模型的主要区别在于它们对波动率的建模方式不同。在此研究中我们参考了 [19] 中的建模方式,并对其加以改进,使用滑动窗口法实时更新时间序列模型,使其预测的
值更具备参考意义。在与机器学习模型结合的过程中,在其它特征变量固定的情况下,我们将使用一个时间序列模型搭配一个机器学习的双融合模型形式进行最终建模。
3.2. 机器学习模型
在对波动率预测的回归模型中,我们一共选择了4种传统的机器学习模型:RF、ADA、GBDT和Hist-GB。在每个模型的参数选择上,我们在这些机器学习模型的预训练过程中使用网格搜索法来挑选模型的最佳参数,以便每个模型都具备最好的泛化能力和适应能力。我们使用时间序列模型和机器学习模型相结合的方式预测未来的波动率。其中时间序列模型为GARCH、GJR-GARCH和EGARCH,与4种机器学习模型的结合过程中将产生12种双融合模型组合,例如GARCH-RF、GARCH-ADA、GJR-GARCH-ADA、GJR-GARCH-GBDT、EGARCH-RF和EGARCH-Hist-GB等模型。在计算实际值与模型预测值之间的误差时,我们使用三个常见的回归指标:R Squared、均方根误差(RMSE)和平均绝对误差(MAE)。其中R Squared越接近于1,则表示模型的解释性越好,模型的预测可靠性越高。当RMSE和MAE的值越小,越接近于0,则表示机器学习模型的拟合效果越好。这三者的公式如下所示。
3.3. 波动率量化交易策略
股票量化交易是一种利用数学统计模型和计算机程序,根据市场的历史数据和交易规律,自动进行股票买卖的交易方式。其根本目的是通过科学的方法,降低投资者自身的情绪干扰,提高效率和收益。其中量化交易的类别有很多种,例如趋势跟踪策略,套利策略和均值回归策略。而此文涉及的波动率量化交易策略参考了均值回归的核心思想。均值回归策略是根据股票的价格与其历史均值的偏离程度,判断其是否存在超买或超卖的现象,并在当前交易价格和历史均值差价较大时,买入或卖出,等待价格回归其股票本身应有的价值时,从而获利 [20] 。在本中,我们使用历史波动率取代历史价格,同时我们将定义一条上轨道线和下轨道线。其中上轨道线为过去70天里波动率的最大值,下轨道线为70日的波动率均线。公式定义如下所示。
当机器学习模型预测的未来一天的波动率
大于当天的上轨道
时,我们认为此时单股的交易市场的波动率较大,即市场投资者的情绪处于比较恐慌或者狂热状态,策略会对股票进行买入。而当
小于
时,我们认为此时个股在交易市场中的波动率回归到比较平稳的阶段,即投资者恐慌或者热度情绪散去,策略会卖出持有的股票。此文使用一些表现指标来评价波动率量化交易策略的收益和风险。个股在测试集上的回测收益可以简单表示为模拟交易结束后的总资产减去最初的投资金额,为了更方便科学地观察收益情况,我们还可以使用年化收益率来评估投资策略效果。它表示投资一年时的预期收益率,计算单位为%。在评估风险方面,我们使用最大回撤,计算单位也为%。其表示投资策略在一段时间内发生的最大亏损幅度。最大回撤的数值越小越好,越大说明风险越大。策略有效性也越差。
4. 实验结果和讨论
在本章节中,我们会详细地报告研究中的波动率量化交易策略在不同双融合模型和不同股票下的表现。其中R Squared、RMSE和MAE会被用于评估双融合模型的效果;策略收益,年化收益率和最大回撤会被用于评估量化交易策略的表现。我们会在汇丰控股(0005)、香港交易所(0388)、电能实业(0006)、港铁公司(0066)、长江基建集团(1038)、腾讯控股(0700)和比亚迪股份(1211)这7只香港股票进行模拟回测测试。数据的时间跨度为2010年1月1日至2023年12月31日;其中2010年~2019年的日间交易数据被用于训练双融合模型,剩下的2020年~2023年的日间交易数据被用于测试双融合模型表现效果和量化交易回测。
4.1. 回归结果
在本节中,我们首先提供了3种时间序列模型和4种机器学习模型组成的12种双融合模型的预测效果,我们会使用均值±标准差(Mean ± SD)来评估回归预测的总体效果的有效性。其中图2显示的是GJR-GARCH-ADA双融合模型在0005股票上的波动率预测表现。从图中可以看出机器学习模型在拟合波动率的任务上表现较为优异。
![](//html.hanspub.org/file/11-1141049x48_hanspub.png?20240520093013305)
Figure 2. Volatility prediction of stock 0005
图2. 股票0005的波动率预测
在表1和图3中,我们详细地展示了每种时间序列模型和机器学习模型组合后的双融合模型在7只香港股票波动率上的平均表现。从箱线图中可以清晰地看出GARCH、GJR-GARCH和EGARCH分类下的机器学习模型预测效果下不会有太大的分别,所有对应的机器学习模型基本上有着相同的分布。现在针对机器学习模型进行讨论,我们可以看出相比于其它模型,GBDT模型拟合效果比较一般,同时误差也是最大的。而ADA模型的表现稍微比GBDT模型好,误差的上下限范围比GBDT小。而RF模型和Hist-GB模型均有比较好的拟合效果。
![](Images/Table_Tmp.jpg)
Table 1. Average regression results for time series models and machine learning models
表1. 时间序列模型和机器学习模型回归结果的平均表现
4.2. 模拟交易结果
类似于章节4.1,在本节中,我们提供了基于时间序列模型和机器学习模型分类下的量化交易策略获利表现。在模拟交易开始前,系统默认初始资金为100000元,最终我们根据获利情况和风险控制来评估不同双融合模型下的投资表现。其中图4表示的是GJR-GARCH-ADA双融合模型在0005股票上的量化交易回测可视化,从图中我们可以看出GJR-GARCH-ADA双融合模型能够根据预测波动率准确地选择在股票的低价值期买入。同时能够在股票恢复至正常价值或者高价值时期发出卖出信号,从而获取利润。此模型在回测结束后资金为140046.25元,具备了较好的盈利能力。
![](//html.hanspub.org/file/11-1141049x50_hanspub.png?20240520093013305)
Figure 4. Trading simulation result of stock 0005
图4. 股票0005的模拟交易结果
为了更加直观地观察所有双融合模型在每只股票上的量化交易表现,我们把7只股票的收益表现和风险表现做了汇总,并在表2中显示。为了更符合现实中的实际情况,方便投资者和研究人员了解策略的利润上限和下限,我们使用了95%的置信区间取代了均值±标准差来表示获利表现和风险控制表现。从中我们可以看出,所有股票的95%置信区间范围内的利润和年化收益率均为正数。但是区间范围内的数值均有较大的差异,例如汇丰控股(0005)、香港交易所(0388)、电能实业(0006)和港铁公司(0066)的收益率不高,但是长江基建集团(1038)、腾讯控股(0700)和比亚迪股份(1211)均有较好的表现,年化收益率达到非常高的水平,可以给投资者带来丰厚的利润。造成这样的现象的原因是每只股票背后的公司都是独立的;行业也有较大区别。公司的决策层会根据市场、政治、经济等原因做出不一样的发展决定,从而影响着公司的未来和对应的股票价格。我们构造的双模型波动率量化交易策略在面对不同的股票时,依然有着比较正向的反馈,也证明了我们策略构造的合理性和参考性。
![](Images/Table_Tmp.jpg)
Table 2. Average investment results for each stock
表2. 每只股票投资结果的平均表现
![](Images/Table_Tmp.jpg)
Table 3. Average investment results for time series models
表3. 时间序列模型投资结果的平均表现
![](Images/Table_Tmp.jpg)
Table 4. Average investment results for machine learning models
表4. 机器学习模型投资结果的平均表现
在模型方面,我们首先展示了基于时间序列模型分类下的量化交易策略获利表现,如表3所示。可以看出3种不同的时间序列模型有着相似的表现,其中基于GJR-GARCH和EGARCH下的模型表现更好,收益区间比较优秀。GARCH模型只是稍微逊色于这两者。造成3种模型表现有差异的原因是不同模型对波动率预测的高点和低点均有不同的结果,因此造成了不同时间序列模型在量化交易回测时期的买入点和卖出点出现差异,从而出现了不同的获利情况。在风险控制方面,我们可以看到3种模型的最大回撤均处于20%~27%之间。差距不是非常地明显。接下来我们按照机器学习模型分类来进行计算量化交易策略获利表现,如表4所示。我们依然可以发现虽然GBDT在预测能力上表现不如其它3种机器学习模型,但是在量化交易的买点和卖点上选择得当,具有最好的收益能力。于此同时,GBDT回撤能力的控制也比ADA和Hist-GB模型好。在预测中表现优秀的RF模型虽然收益能力不如GBDT,但是在风险控制上有着最有效的表现,其最大回撤的95%置信区间上限比其它3种模型均低几个百分点。
![](Images/Table_Tmp.jpg)
Table 5. Average investment results for time series models and machine learning models
表5. 时间序列模型和机器学习模型投资结果的平均表现
![](//html.hanspub.org/file/11-1141049x51_hanspub.png?20240520093013305)
Figure 5. Comparisons of annualized return
图5. 年化收益率的对比
![](//html.hanspub.org/file/11-1141049x52_hanspub.png?20240520093013305)
Figure 6. Comparisons of maximum drawdown
图6. 最大回撤的对比
我们对模型再进行细分,可以把3种时间序列模型和4种机器学习模型组成的12种双融合模型的量化交易结果做成表5。其中更加直观的年化收益率和最大回撤可视化结果如图5和图6所示。与表3的结果类似,我们从表5、图5和图6中看出GJR-GARCH和EGARCH下的4种机器学习模型表现总体上优于GARCH模型下的机器学习模型。在相同的时间序列模型下,机器学习模型的获利情况也各不相同。比较意外的是ADA模型的表现。在表4中,ADA的表现和其它模型不会有非常大的差距,但是在细分后,其平均收益的下置信区间都出现了负数,即表示投资者极有可能面临亏损。而且其95%置信区间上限的数值也不是非常高。因此可以推断出ADA模型在4种机器学习模型中综合表现最一般。与表4结果相似的是,不同时间序列模型下的GBDT依然具有最好的收益表现,最大回撤也处于比较正常的水平。Hist-GB则紧跟GBDT后面,甚至在GARCH模型下表现优于GBDT。而RF模型依然处于比较稳定的状态,虽然收益率表现不如GBDT和Hist-GB,但是在最大回撤控制上具有最好的表现,即在股票买入和卖出的过程中资产价值不会出现非常剧烈的波动。对于投资者而言,决定使用哪一种波动率量化交易策略取决于自身的预期收益和风险承受能力。对于比较激进,敢于冒险,并且能接受一定风险和亏损的投资者,GJR-GARCH-GBDT、EGARCH-GBDT、GJR-GARCH-Hist-GB和EGARCH-Hist-GB等双融合模型比较适合在波动率量化交易策略中使用。而对于比较保守,风险承受能力不强的投资者,GJR-GARCH-RF或者EGARCH-RF等双融合模型比较适合在波动率量化交易策略中使用。最后,本研究提供的波动率量化交易策略的思路和应用给投资者带来了更多的收益,为投资者和研究人员将波动率,时间序列模型,机器学习模型,与量化交易的结合提供了有意义的实战参考。
5. 结论与展望
本研究以香港股市中的7只股票为研究对象,运用了GARCH、GJR-GARCH和EGARCH这3种统计时间序列模型和RF、ADA、GBDT和Hist-GB这4种机器学习模型,对上述股票的未来一天波动率进行了预测,并基于预测结果构建了量化交易策略,评估了投资表现。实验结果表明这些新结合的模型中GBDT和Hist-GB得到了最优的获利结果。综上所述,通过使用真实的股票交易数据证实了时间序列模型和机器学习模型组合的双融合模型在波动率量化交易策略中具有应用价值,本研究为大众提供了全新的投资交易思路和方法,也为构造量化交易策略提供了可靠的参考。在未来的研究中,我们可以进一步地扩展研究样本,不仅仅在香港市场的股票进行实验,还可以在其它国家或者地区的市场进行不同主题股票进行实验。以及探索更多的模型、训练方法、其它交易模式来提高波动率量化交易策略的效果和稳健性。
作者贡献
颜轲越:收集香港市场股票的交易数据,建模流程框架的构思,建模实验检验,撰写原稿。
王宁:对香港交易的股票提供选股和投资建议,对原稿进行润色。
李莹:监督项目进度,对建模流程细节提供建议指导,对原稿进行润色。
NOTES
*通讯作者。