1. 引言
1.1. 研究背景
随着人民币汇率波动逐渐增加,人民币贬值受益板块在中国资本市场上逐渐占有一席之地,资金源源不断地注入也引起了投资者极大的兴趣。但是,中国资本市场的复杂程度也是众所周知的,因此本文研究的是如何合理地构建选股策略模型,为投资者在资本市场上控制投资风险,希望从长期来看在股市中的人民币贬值受益板块的投资能帮助投资者取得正向收益。而这种量化投资的方式在国外早已盛行,至今在资本市场也能获得一个稳定正向的收益率。
量化投资是利用计算机语言,参考合适的数学模型,使用算法所设定对应的选股策略的一种投资手段。与投资者主观的积极投资方法不同,量化投资是通过算法建立数理模型,对公开可获得的数据进行处理并分析,从中研究资本市场上的发展规律,并寻求套利机会的可能,从而实现超额收益。
量化投资与传统投资相比还有一点好处就是,因为量化投资是预先设定在计算机上的投资策略,因此它不会受到人的影响,这样可以避免由于情绪造成的投资失败或者错过一次良好的投资机会,最大限度地减少人为行动对投资活动的误判。到目前为止,运用在资本市场的量化技术在西方国家已被广泛运用,在指数类型的投资中运用比率几乎达到100%,而在主动投资的运用比率也占约20%~30%,可以说量化投资在国外投资中是占主导地位的。
相对于国外量化投资技术的日趋成熟,我国对量化投资方面的技术和运用从2009年才开始起步,因此国内的量化投资应用覆盖面还不够广,目前仍属于少数投资者会选择的一种投资方式,根据投资市场基本面信息进行投资筛选仍然是处于主导地位的。然而随着国内资本市场的日益发展,证券市场的复杂程度也在逐日提升,依赖人的主观选择进行的证券投资收益率超过市场水平的难度增大,因此投资者也逐渐把注意力放在量化投资上面,国内的投资重心也在逐渐往量化投资方向进行靠拢。
1.2. 研究意义
市场经济中占比重要的一部分便是证券投资,这也是家庭和企业对于资金配置的一个手段。数据分析的质量如何,对于投资组合的收益至关重要。很明显,若想依赖人工手段去对庞杂的数据进行分析处理,这无疑是十分困难的。然而计算机技术的出现以及高速发展恰好为庞杂数据处理提供了更优质的解决方法,把适用有效的投资学理论以及相关数理模型与计算机技术进行融合,这样就可以将繁杂的数据处理过程和人工易出差错的数据分析过程变得简单稳妥,从而使计算机技术成为投资决策过程中最重要的助力,并使得投资者获得更科学的投资依据用于证券。
1.3. 研究方法
本文此次研究,结合了理论分析与实证分析,同时对分析的方法过程加以描述。在理论分析上,主要对量化投资理论和多指标量化选股模型的基本概念、现状以及未来的发展进行理论铺垫,详细说明了多指标选股模型的理论基础(丁鹏,2012) [1] 。在实证分析上,通过搜集统计人民币贬值收益板块的股票数据,结合金融学相关的基础知识,筛选出对人民币贬值收益板块中影响股票收益的有效指标。通过有效性检验之后,需要对有效但冗余的指标进行剔除。然后,以2019~2022年作为检验期,构建Z综合评分模型,对筛选出来的有效但不冗余的指标进行打分评价。
2. 文献综述
2.1. 国内相关文献
王冰等(2011)认为股票市场的高收益率也就决定了它的投资必定伴随着高风险,因此想从股票市场获得收益,就需要具备一定的投资素养与专业知识储备。从目前我国投资群体来看,普通的投资者主要还停留在股票的基本面信息选股上,缺乏投资策略,不会过多深入研究 [2] 。王力弘(2013)认为像证券公司、基金公司等金融机构对投资策略方面的研究会比较重视,会经常性地开展投资课堂并督促自己公司的员工进行金融知识储备 [3] 。方浩文(2012)认为因为我国绝大部分投资者为散户,缺乏对量化投资研究的群众基础,关于量化投资的研究成果与思想方法得不到充分广泛地交流,导致学术界与实务界思想断层,不利于我国量化投资研究的发展 [4] 。因此,本文希望帮助读者了解量化投资的相关发展历史,明晰数量化的策略投资的作用,让更多普通投资者在实际运用与操作中开拓投资的眼界,使得量化投资的思维传播其中,这样才会提升普及率,利于国内量化投资的发展。
2.2. 国外相关文献
上文也有提及到,国外对量化投资的研究早在50多年前就已经开始了。回顾量化投资的发展史,它的起源性文章是《portfllio selection》,所以其作者马克维茨(Markowitz),就成为了大家公认的量化投资创始人。马克维茨(1952)提出的均值–方差模型,前所未有地把数学模型引进金融探索中,为西方国家的定量投资理论开创先例,并且在此基础上研究出最优资产配置模型,从此量化投资开始不断发展,逐渐进入投资者的视野,为后人对量化投资的研究打下坚实的基础 [5] 。在1963年,威廉·夏普(William Sharpe) (1964)又建立了一个应用在投资界的数学模型——单一指数模型,这给投资者们在处理股票收益过程中,在应对股票数量过大的问题提供了解决方法 [6] 。同时期研究出的另一个重要理论同样影响着量化投资的发展进程,那就是由尤金·法玛(Eugene Fama) (1970)提出的有效市场假说 [7] 。在1976年,由斯蒂芬·罗斯(Stephen Ross) (1976)创立的套利定价理论APT让多因子选股模型在实务投资中的运用更为广泛,该理论对影响资产收益率的多种因子都作出了解释,让以往单一因子模型解释不通的收益率变化都作出了解答 [8] 。
国外量化投资的巨大进展不止体现在模型创新上,更体现在数据上。据统计,在1970年左右量化投资在世界中的证券市场中所使用的频率小到可以忽略不记,而在30多年后,量化投资在各资产管理公司的规模总和早已超过880亿美元,这个数字在之后的每一年都在不断攀升。由路透社的数据显示,2010年就已经有超过1500只量化基金规模总和高达2600亿美元,呈现出每年20%的增长速度,对比同时期的非量化投资基金的增长速度仅有8%,说明量化投资开始得到人们的认可,对比传统投资方法也有极大的优势,取得的收益率也更高。
因此,正是因为有西方市场的成功案例,我们才对量化投资在国内的发展大为看好。总体来说,量化投资这一定量策略投资方法还是能迎合中国市场的需求的。对于量化投资在中国市场的发展应保持乐观态度,相信不久之后中国投资者能感受到量化投资策略带来的平稳正向收益,助力金融行业发展。
3. 多指标模型构建
3.1. 多指标模型的构建方法
相对于传统的投资方法,量化投资的优势是它可以将预先设定好的投资策略,以计算机语言记录下来,在执行策略时不会受到人的主观判断导致决策错误。本文以人民币贬值受益板块为例,搜集了板块内206支股票的21个可能会影响股票收益趋势的指标信息,通过给各股票的21个候选指标进行排序,分析其对应的年化复合平均收益,判断出哪些因素是确实会对股票价格有所影响,再根据这些有效的指标设定某种投资规则,构建出对应的数学模型,由计算机判断该投资机会符不符合设定内容,决定是否投资。从这点来说,量化投资尽可能地除去了人为的主观判断,对投资机会的把控显得更加客观,因此量化投资成为了金融领域主要的研究方向。
本文构建的多指标模型,是通过搜集股票以往的发展行情及公司相关的财务信息来判断有哪些因素会影响股票未来的收益率,这也是投资者选择量化投资的最初目的——获得超额收益。因此多指标模型在选股的时候,会把满足指标的股票优先买入,把达不到指标要求的股票选择卖出。在设定指标的时候一切都是围绕股票的收益率作为考虑标准,但是股票收益率又受到许多因素影响:宏观的,股票收益率会与国内的大经济环境有关;微观的,与该股票的公司经营,以及股票市场的波动有关。因此在确定有效指标的时候要从多方面考虑,一旦忽略了某些影响股票价格的重要指标,则模型对股票价格的判断有误,会影响整一个投资计划。所以构建模型前需要完成对候选指标的有效判断,完成有效性检验,再进行权重配置,得到最优的选股组合。
3.2. 模型构建流程
在建立多指标选股模型时大多会有两种方式,分别为回归法和股票打分法。此次本文选择的方法是股票打分法,就是对影响股票收益率的有效指标都记录下来,然后根据其对股票收益率影响的大小进行赋权,赋权后再对各有效指标进行综合打分,计算打分总和,根据分数对股票进行排序,选出得分靠前的股票作为投资组合即完成了选股目的,这是多指标选股的一种选股方法。比起回归法,股票打分法的优势是在于,它是根据有效指标对股票收益率的影响程度大小进行赋权,如此一来可以减少股票中出现错误指标从而影响收益率的现象,构造出来的模型更加符合市场实际情况。而回归法是根据历史股票的收益率,对相关指标进行回归分析后得到回归方程,然后将股票目前的指标带入方程进行预测,以代入方程结果作为选股标准,然而难免会受到指标中极端值的影响,会导致预测结果不准确,因此这里选择股票打分法。
多指标模型的构建流程为:首先,对候选指标按照检验的步骤与标准筛选出有效指标。有效指标即是与股票收益率存在逻辑关系的指标,通过这些指标可以挑选出未来收益率较高的股票。然后,对股票中的各有效指标进行打分排序,选取得分靠前的多支股票。这里采用的赋权方法为等权重法,对有效指标进行赋权,求出股票的综合得分,将得分靠前的股票作为组合,以此构建多指标选股模型。
3.3. 有效指标的确定
本文选取候选指标的信息来源是国泰安数据库,因为不同数据库可能会导致统计数据的差异性,所以这里只选择国泰安数据库作为指标来源。而我们在建立多指标选股模型之前要选出可能影响股票收益率的候选指标这些候选指标可能是公司的基本面信息,如市净率PB和市盈率PE这一类的估值指标,也可能是选股技术面的指标,诸如换手率、量比等。
多指标模型在对股票进行筛选打分的时候需要从多个方面进行考察鉴定,从量化的角度来看,并且结合前人的研究经验,不难得出这些指标主要分为四大类,即价值类指标、成长类指标、品质类指标、技术面指标。因此对于涉及到的四大类指标,建立单一指标选股模型时可分为四种模型,即对应的价值模型、成长模型、质量模型以及技术模型。
价值模型:所谓价值模型,就是投资者们希望寻找到目前被低估的股票以低价买入并长期持有,期望在日后股价回升获得较为稳定的超额收益,也就是常说的低买高卖,这种模型涉及到的指标就是价值类指标,如市盈率PE、市净率PB。
成长模型:所谓成长模型,就是希望通过股票的历史数据预测股票在资产上的增长幅度,对股票的未来走势进行预测。与价值模型不同,如果我们判断一个股票为成长型,那么它未来的价值和收益率可能没法预测。投资者们对成长型股票的喜好不在于股票分红得利,而在于被投资的行业迅猛发展,以期成为股东获得资本利得。
品质模型:所谓品质模型,就是控制其他条件都相同的情况下,选择品质更高的金融产品。选择此类产品是对风险的把控比较强,通常这类产品的风险会比较低,相对地收益率也会比较低,但好处是它的安全性充足,长期来看收益也比较稳定。这里用于度量企业品质的指标有资产负债率、固定资产比率、流通市值等。
技术模型:就是投资者对股票交易的相关数据(包括成交量、流通市值及均线等)的深入研究,挖掘出影响股票未来价格的技术指标。因为股市会有持续趋势和趋势反转的现象,所以投资者才需要对股票的技术指标进行分析,判断未来走势。
而因为股市十分复杂,因此通过单一类别的指标判断个股走势不是不可以.只是本文从更全面的角度出发,通过搜集大量数据整合判断股票走势,构建多指标的选股模型,这样得出的选股模型更适用于股票市场的实际操作投资。
3.4. 数据处理
数据的选取收集是判断模型是否有效的重要过程,如果数据搜集出现错漏,就有可能会导致整个模型对股票的选取标准产生错误判断,因此在建立模型之前,我们要确保搜集到的数据真实有效并且是正确的,将它作为模型的原始数据。并且,数据选取的范围样本以及时间跨度要足够,这样得出的结论才具有普遍意义,构建的模型才是广泛有效的模型。本文研究的是人民币贬值收益板块成分股并以此为样本,样本数据归为五个结构:成长能力、技术指标、股本结构、资本结构、盈利能力共21项,数据均来源于国泰安数据库。由于人民币贬值受益板块是与2019年所构建,故而这里选取的是2019年板块构建时所包含的成分股的股票数据,选取的数据为2019~2022年的股票季度末收盘价。同时,因为ST股是特别处理的股票,在财务及其他状况是有异常的,而PT股是停止进行任何交易,并且价格清零等待退市的股票所以需要剔除样本中的ST股与PT股,避免异常数据对模型的建立造成影响。因此本次采用的是2019~2022年人民币贬值收益板块剔除ST股与PT股后,已发行的206支股票的季度数据。表1为需要收集的股票指标数据。
3.5. 被选指标的有效性检验
在进行指标有效性检验时,我们使用的数据是回测期为2019~2022年的月度数据共4个年度。在验证候选指标有效性时将选为样本数据的人民币贬值收益板块成分股平均分为4组,具体检验过程如下:
1) 在作为回测期的2019~2022年内,将样本的206支股票平均分为4组分别按照各指标的高低,从小到大进行排序,即组合1是指标最小的组合,组合4是指标最大的组合。同时,每只股票所在顺序的位置便是其得分。本次采用的是年度数据,共4年的回测期,分别计算出每个投资组合在对应年度的年化收益,之后再求出每组股票的等权重收益均值,即计算出年化复合平均收益。
2) 对比指标最大的组合(组合4)和最小的组合(组合1)之间年化收益的差额,判断两者差额的正负值。若两个组合之间的差额为正,则该指标对平均年化收益的影响是正向的,也就意味着股票该指标的值越大,对应的年化收益率也就越大;反之则越小。
3) 计算各组合的超额收益,并将各指标最小组合(组合1)与最大组合(组合4)相对基准的超额收益进行比较,如果组合1的超额收益数值比组合4大则说明该指标越小,收益越大,反之则越小。这里的基准收益选择的是上证指数,在过去4年里,上证综指的平均收益是5.90%,平均看来市场股价是上涨的。
4) 获得投资组合收益率优于上指收益率的概率,方法是将预计使用的各个指标组合的变动幅度和同期的上指的变动幅度作比较。如果跑赢概率为60%以上,则通过检验。进行以上步骤之后,可以判断候选指标是否满足上述三项条件,如果指标均满足条件,则可判断指标为有效指标,确定指标的有效性。在经过搜集、统计股票数据之后,根据检验指标有效性需要的相关计算结果,得到表2,以此判断所有候选指标中有哪些是属于有效指标。
Table 2. Index test calculation table
表2. 指标检验测算表
数据来源:国泰安数据库。
表2显示的是各指标收益较高的组合与上证指数对比统计出的相关数据。从表中可以看出,市盈率(PE)、净利润、区间换手率、市净率(PB)、市销率(PS)、企业价值倍数、前十大股东持股比例在统计出来的跑赢上证指数的概率是比较高的,均到达60%以上,满足条件4。在超额收益上,各指标均为正的,说明过去4年间组合均跑赢上证指数,有较高的收益,符合板块的实际情况。最后判断组合收益与分值(序数)的相关性。序数是按指标从小到大的顺序排列,相关性越高,说明指标越大,收益越高。这里选择的相关性阙值 ≥ 0.9,经过分析之后,通过有效性检验的指标如表3。
Table 3. Indicators that pass the validity test
表3. 通过有效性检验的指标
3.6. 冗余指标的剔除
上面对候选指标的有效性进行了检验,筛选出的指标虽然是有效的,但却不一定是模型所需要的。因为有效指标之间可能存在比较高的相关性,意思就是如果两种指标的相关性比较高,他们对模型的结果产生相同的影响,这样就会导致结果重合甚至建立错误的模型。因此,为了避免这种情况的发生,我们要对通过有效性检验的指标进行冗余因子的剔除。
具体剔除方法:
1) 在进行冗余因子剔除之前先对有效指标进行分组,这里的评分是以有效指标组合的收益率进行判断的,从低至高根据组合收益率进行排列。把第一个组合(收益率最低)的收益率设置为
,第二个组合的收益率设置为
,继续的,将第n个组合的收益率设置为
,取基准收益率为
。接下来就可以分别计算各组合收益率与基准收益率的差值,即
,求出它们的差值,然后分别用
表示,差值表示的就是组合的超额收益。得出各组合的超额收益后,比较
与
的大小。若
,表示组合1的超额收益率比组合i的小,此时令该组合i的得分为i;若
,则令该组合得分为
。
2) 对已经分好的组合进行打分后,构建指标与组合的得分矩阵,计算每一年指标与得分相关性矩阵。
3) 设矩阵:
,其中t表示时间,u则为因子内指标的序号。首先计算出每个年度种有效的指标关于其分数的相关性矩阵,之后再算得其关于相关矩阵的均值。由于本文实证所选择的数据是2019年s3至2022年s4的季度数据,因此我们可以将矩阵公式设置为:
(1)
之后根据各组合每年的年化平均收益率分别进行打分,再计算表3中各个指标与得分的相关性均值,最终结果如表4所示:
Table 4. The correlation matrix of each index
表4. 各指标相关性矩阵
4) 根据目前统计学的一般认定方法,相关系数绝对值大小在0.5~0.8范围内的,我们认为是显著相关。参考安信证券研究中心通过大数据统计结果,研究人员提供的假定得分相关性阈值取0.6,具有相当的可靠性,所以这里的相关性阈值也取0.6。如果相关性比0.6大,则说明两个指标之间存在相关性,需要剔除。当两个指标相关性较大时,剔除收益较小的指标,结果如表5:
Table 5. Indicators after removing redundancy
表5. 剔除冗余后指标
3.7. 模型构建
本文主要使用等权重法来进行模型的建立,这里采用Z评分模型,是因为相较于排序模型和回归模型,Z评分模型在构建的时候,模型在极值的影响下被干扰的程度较小且更为的稳定。同时,使用等权重法能将投资者对指标的偏好影响降低,防止由于投资者的个人喜好影响整个模型的结果,所以使用Z评分模型能够取得更加客观可靠的结果。
在构建模型之前,将样本股票对应的筛选出来的有效且不冗余的指标分值进行排序,这里按照从小到大的顺序,对应的排名第一的股票打1分,第n个股票打n分。为了方便统计与更好地进行计算,本文将第i个股票的因子k记作Zi,k因此可以确定本文需要的Z评分模型:
(2)
构建好打分模型之后,对板块内各股票的有效但不冗余指标进行打分,按照从小到大的顺序进行排列。经过此步骤之后,对股票的最终打分完成,本文构建的多指标选股模型的完整过程也随之完成。
3.8. 模型检验
完成投资组合的构建之后,下一步将模拟组合的股票代入实际股市数据中,分析统计各组合的收益,对比上证指数的收益,判断模型的有效性。由于本文采用的是年度数据,所以在组合的模拟投资中,每个组合得到的回报收益是以年为一个周期进行统计。假设在2019年将10,000元用于模拟组合Q1~Q4的投资中直至2022年底,在2022年底对组合中股票的收益进行统计,得到结果如表6所示。
由上表的统计显示得知,在年化复合平均收益上,随着组合得分的增加,平均收益也是越来越高:而在超额收益的表现上,组合Q1和和上证指数的年化平均收益率接近,组合Q2则和组合Q3接近,表现最好的则是组合Q4,超额收益均值达到了14,55%。由此可以看出,本文构建的综合Z评分模型筛选出的得分较高组合在回报率上有较好的表现,构建模型的目的就是为了取得较高的收益设计的,而得分最高的组合Q4也满足较高超额收益的要求,因此可以认为本次构建的多指标选股模型通过检验。
4. 总结
本文构建的多指标选股模型,采取的数据采用2019~2022年,中国股市中人民币贬值收益板块的206支股票进行研究。因为是以季度为周期单位,所以本文使用的数据都是根据各股票的季度报表得来的,之后用综合Z评分模型,对构建的4个投资组合进行实证分析。在股票的众多指标中,选择了21个常见指标作为本次研究的候选指标,对指标进行有效性检验以及冗余指标的剔除之后,得到三个有效指标:企业价值倍数、区间换手率、市净率。随后构建综合Z评分模型,对板块内股票的三个有效指标进行大小排序,并由其排序大小进行对应的打分,构建出收益较高的投资组合。为投资者在人民币贬值收益板块内的投资提供建议,同时也验证了量化投资在股市内的可行性。虽然我国在量化投资方面的研究仍处于初步状态,但是从西方国家的普及性以及统计收益来看,量化投资是一种比较科学的投资方式,本次构建模型过程中也验证了其可行性。所以,借助国内目前的金融热潮,大量的人才投入金融市场的研究分析,国民投资理财意识的日益剧增,我们有理由相信量化投资在日后的国内投资市场会有它的一席之地,为我国的经济发展作出相当的贡献。