基于多状态马尔可夫链的股票价格预测
Prediction of Stock Price Based on Multi-State Markov Chain
DOI: 10.12677/SA.2023.122031, PDF, HTML, XML, 下载: 221  浏览: 801  科研立项经费支持
作者: 付 军, 李俊刚*, 庞静雯:北方工业大学理学院统计系,北京
关键词: 股票马尔可夫链预测模型在线旅游Stock Markov Chain Prediction Model Online Travel
摘要: 随着人们投资理财的意识的逐渐建立,股票已成为常见的投资对象之一。但是在股票带来高收益的同时伴随着高风险。如果能提供较准确的股票参考预测,对投资者以及企业自身都将得到可观的收益。由于影响股票市场的因素众多,因此股票波动具有一定的随机性。本文围绕股票只受当前状态的影响、与过去状态无关的特点,将运用广泛的马尔可夫链作为预测模型。以在线旅游板块中的西域旅游股票作为案例,并对其进行运算处理,建立四状态和多阶十六状态马尔可夫链模型,预测其发展趋势,得出马尔可夫链在股票的实际应用中具有一定研究价值的结论。
Abstract: With the gradual establishment of people’s awareness of investment and financial management, stocks have become one of the common investment objects. But with high returns come high risks. If we can provide more accurate stock reference forecasts, we will get considerable benefits for investors and companies themselves. Because of the many factors that affect the stock market, stock fluctuations are somewhat stochastic in nature. In this paper, around the feature that stocks are only affected by the current state and have nothing to do with the past state, the widely used Markov chain is used as a prediction model. The Western Region Tourism stock in the online tourism sector is used as a case study and processed arithmetically to establish a four-state and multi-order sixteen-state Markov chain model to predict its development trend, and conclude that Markov chain has some research value in the practical application of stocks.
文章引用:付军, 李俊刚, 庞静雯. 基于多状态马尔可夫链的股票价格预测[J]. 统计学与应用, 2023, 12(2): 293-305. https://doi.org/10.12677/SA.2023.122031

1. 引言

2022年11月,文化和旅游部发布的《关于推动在线旅游市场高质量发展的意见(征求意见稿)》(以下简称《意见》)。其中提到“积极发挥在线旅游行业在旅游业中的枢纽和引领作用,推动旅游行业的创新发展和智慧化水平”,“提升行业管理的数字化水平和治理能力,推动中国在线旅游行业发展处于国际领先地位”,这无疑给在线旅游行业注入了新的活力。

在线旅游,指消费者通过网络的方式购买和预订旅游产品或者旅游服务,并通过互联网或者线下完成支付。最早在1999年,中国便产生了在线旅游行业,但是在当时互联网普及较低,发展受到了阻碍。后来随着技术的进步,在经过长达20年的发展与更迭后,在线旅游与国民经济的关系越来越密切了,形成了相互依赖、相互促进的关系。

因此研究和预测该行业股票走势,能帮助我们了解在线旅游行业的发展趋势,可以给广大投资者提供投资决策参考,本文选用在线旅游板块中龙头股之一的西域旅游股票作为研究对象。西域旅游开发股份有限公司是新疆地区第一家旅游开发行业的上市公司,以2022年11月2日的股价估算市值超40亿元。

2. 文献综述

目前,国内外对于股票价格的预测有很多研究,但是股票市场复杂多变,且交易往往具备一定随机性。由于受到市场内外部宏观环境、投资者微观因素等诸多不确定的影响,无疑增大了预测的难度,因此在研究方法上一直不断进行改进、优化和创新,并致力于形成更加稳定有效的预测体系。

针对股票价格的预测,国内外学者提出了方差分析、回归分析、模糊算法、遗传算法、马尔可夫链等预测模型。其中马尔可夫链的作为深度学习的基石,且应用比较广泛。例如,张宇山等人 [1] 将股价状态划分成六个区间,利用马尔可夫链构建转移概率矩阵,预测宝钢股份未来20个交易日的走势;彭志行等人 [2] 将23个精伦电子股票收盘价分成四个区间,通过构建转移概率矩阵预测未来两个交易日的收盘价。王佳伟等人 [3] 则利用神经网络和马尔可夫链结合的方式,预测特发信息股票的价格。

基于以上文献,本文通过马尔可夫模型来研究西域旅游(300859)的股价涨跌变化情况,探究马尔可夫链在预测股票价格中的实际应用。我们收集整理了西域旅游股票2022年7月29日至2022年11月2日的收盘价格,按照涨幅共划分成四个区间,构建四状态转移概率矩阵和十六状态转移概率矩阵,预测股票未来的走势情况。

3. 马尔可夫链模型介绍

马尔可夫链,是以俄国数学家安德烈·马尔可夫(A.A. Markov, 1856~1922)命名的,是随机过程领域中的重要研究方法之一。如果n个连续变动事物在变动过程中,其中任一次变动的结果都具有无后效性,那么,这n个连续变动事物的集合就叫做马尔可夫链,表明事物的状态由过去到现在、由现在到将来,一环接一环,像一根链条 [4] 。

马尔可夫预测法是基于马尔可夫链,是依据当前事件的情况来预测其在未来各个时期变化情况的一种预测方法。总结历史数据,形成状态转移概率矩阵,对预测对象各个状态的初始分布和各状态间的转移概率进行研究,在已知当前股价涨跌情况时,便可以预测下一时刻股票的涨跌情况。

3.1. 马尔可夫模型分析法

用马尔可夫链模型对事件进行预测的方法被称为马尔可夫模型分析法,这是一种将研究的变量作为状态,变化过程作为“状态转移”,形成动态模型来研究随机事件变化趋势的方法。

股票市场的股票价格、收盘价格、涨幅情况都是一种依赖于时间t的随机变化的过程,并且股票未来的状态只与当下时刻状态有关,与过去无关。股票状态变化的过程是具有时间历程的不变性的,并且其一步转移概率与时间起点没有关系,只与时间差有关系,即转移概率矩阵稳定不变。同时股票价格、股票价格区间以及成交量只能产生可列个状态,且用同一标准划分的各状态应相互独立,并包含全部可能出现的状况 [5] 。所以,可以用马尔可夫模型分析法对股票市场的价格波动、未来发展趋势进行预测,探究马尔可夫链在预测股票价格中的实际应用,帮助投资者了解市场基本情况。

假设马尔可夫过程 { X n , n T } 的参数集是T离散的时间集合,即 T = { 0 , 1 , 2 , } 。与 X n 对应的全体可能取值组成了状态空间I,即 I = { i 1 , i 2 , i 3 , }

马尔可夫链 [6] 则是指,在随机过程 { X n , n T } 中,对于任意整数 n T ,其条件概率满足马尔可夫链的后无效性,即:

P { X n + 1 = i n + 1 | X 0 = i 0 , X 1 = i 1 , , X n = i n } = P { X n + 1 = i n + 1 | X n = i n } (1)

换言之,时刻 X n + 1 的状态条件概率仅仅依赖于时刻 X n 的状态,与其他时刻的状态无关。

3.2. 转移概率与转移概率矩阵

状态转移概率是指事物当前正处于某一状态,其下一时刻转移到其他状态的可能性。我们可以借助条件概率的定义,求解转移概率p。例如事物从状态 E u 到状态 E v 的状态转移概率 P ( E u E v ) 为:

P ( E u E v ) = P ( E v | E u ) = p u v (2)

如果事物拥有n个可能的状态,即 E 1 , E 2 , E 3 , , E n 。那么,我们把 p u v 记为事物从状态 E u 转移到 E v 状态的转移概率,若事物此刻正处于状态 E u ,其下一刻可能会转移到 E i ( i = 1 , 2 , 3 , , n ) 的状态,共n种可能。总结所有的状态转移概率后,可得到矩阵P:

P = ( p 11 p 12 p 1 n p 21 p 22 p 2 n p n 1 p n 2 p n n ) (3)

如果矩阵P满足下列条件:

{ 0 p i j 1 ( i , j = 1 , 2 , 3 , , n ) ( 4 ) j = 1 n p i j = 1 ( i = 1 , 2 , 3 , , n ) ( 5 )

式(4)要求矩阵P满足非负性,即矩阵中所有元素均不得为负,且均不大于1。

式(5)要求矩阵P满足归一性,即矩阵所有行和始终为1。

若矩阵P满足以上两点,我们称为P为状态转移概率矩阵。

3.3. 马尔可夫预测法

事物如果要转移到某种特定状态时,在实际过程中可能需要进行多步才能达到。本文用 π v ( k ) 表示事件在初始状态( k = 0 )已知的情况下,经过k次状态转移后,到达状态 E v 的概率。其具备以下性质:

v = 1 n π v ( k ) = 1 (6)

我们可以把上述过程分解成两步:事物先经过 k 1 次的状态转移至 E i ( i = 1 , 2 , 3 , , n ) 的状态,再经过1次状态转移成 E v 的状态。根据马尔可夫过程的特性两步之间相互独立,由Bayes条件概率公式其概率表示为:

π v ( k ) = i = 1 n π i ( k 1 ) × p i v (7)

如果我们考虑经过k次状态转移后,所有可能转移到状态的概率,我们用行向量 π ( k ) 来表示:

π ( k ) = ( π 1 ( k ) , π 2 ( k ) , , π n ( k ) ) (8)

当k = 0时,我们称为初始态概率向量

π ( 0 ) = ( π 1 ( 0 ) , π 2 ( 0 ) , , π n ( 0 ) ) (9)

结合式(7),我们可以推导出只用初始状态向量和状态转移矩阵,表达 π ( k ) 的方法:

π ( 1 ) = π ( 0 ) × P π ( 2 ) = π ( 1 ) × P = π ( 0 ) × P 2 π ( 3 ) = π ( 2 ) × P = π ( 1 ) × P 2 = π ( 0 ) × P 3 π ( 4 ) = π ( 3 ) × P = π ( 2 ) × P 2 = π ( 1 ) × P 3 = π ( 0 ) × P 4 π ( k ) = π ( k 1 ) × P = π ( k 2 ) × P 2 = = π ( 0 ) × P k (10)

4. 在线旅游板块股票案例分析

选用在线旅游板块中的西域旅游(300859)股票作为本文研究对象,收集该股自2022年7月29日至2022年11月2日的交易数据(详细数据见附表1),股票价格折线图如图1所示:

我们将西域旅游从2022年7月29日至2022年11月2日期间的每日收盘价与上一个交易日收盘价格进行比较,把涨幅在 ( , 5 % ] 区间内的定义为大幅下降,把涨幅在 [ 5 % , + ) 的股票定义为大幅上涨,位于 ( 0 % , 5 % ) ( 5 % , 0 % ) 分别定义为上涨、下降。即总共分为大幅下降、下降、上涨、大幅上涨这四种情况,将这四种情况分别作为马氏链模型中的四种状态,利用马尔可夫链进行分析预测。

Figure 1. Stock price line chart of western region tourism from July 29, 2022 to November 2, 2022

图1. 西域旅游2022年7月29日~2022年11月2日股价折线图

Table 1. Daily closing price status of western region tourism from July 29, 2022 to November 2, 2022

表1. 西域旅游2022年7月29日~2022年11月2日每日收盘价状态

4.1. 划分状态确定状态空间

以每个收盘日作为离散的时间单位,收盘价变动情况分为四种状态:大幅下降、下降、上涨、大幅上涨。并把大幅下降记为0(DD)、下降记为1(ND)、上涨记为2(NR)、大幅上涨记为3(DR)。则状态空间为 I 1 = { DD , ND , NR , DR }

状态概率是各种状态出现的可能性大小,用状态向量 a ( n ) = ( p 0 , p 1 , p 2 , p 3 ) ,其中 n T ,T是时间集, T = { 0 , 1 , } p i 为状态i出现的概率( i I 1 )。

表1中共63个交易日,其中大幅下降10、下降22、上涨25、大幅上涨6。

4.2. 建立状态转移概率矩阵

n u v X 1 , X 2 , X 3 , , X n 从状态u经过一步转移到状态v的频数,我们可以通过式(11)用来估计 p u v

p ^ u v = n u v j = 1 n n i j (11)

表1中,大幅下降状态的总次数为10次,其中由大幅下降转移为大幅下降的次数是3,故转移概率为: p 00 = 3 / 10 = 0.3 ;由大幅下降转移为下降的次数是4,故转移概率为: p 01 = 4 / 10 = 0.4 ;由大幅下降转移为上涨的次数是2,故转移概率为: p 03 = 2 / 10 = 0.2 ;由大幅下降转移为大幅上涨的次数是1,故转移概率为: p 04 = 1 / 10 = 0.1

下降状态的总次数为22次,其中由下降转移为大幅下降的次数是2,故转移概率为: p 10 = 2 / 22 0.09 ;由下降转移为下降的次数是7,故转移概率为: p 11 = 7 / 22 0.32 ;由下降转移为上涨的次数是10,故转移概率为: p 12 = 10 / 22 0.45 ;由下降转移为大幅上涨的次数是3,故转移概率为: p 13 = 3 / 22 0.14

上涨状态的总次数为25次,其中由上涨转移为大幅下降的次数是4,故转移概率为: p 20 = 4 / 25 = 0.16 ;由上涨转移为下降的次数是8,故转移概率为: p 21 = 8 / 25 = 0.32 ;由上涨转移为上涨的次数是12,故转移概率为: p 22 = 12 / 25 = 0.48 ;由上涨转移为大幅上涨的次数是1,故转移概率为: p 23 = 1 / 25 = 0.04

大幅上涨状态的总次数为6次,其中由大幅上涨转移为大幅下降的次数是0,故转移概率为: p 10 = 0 ;由大幅上涨转移为下降的次数是3,故转移概率为: p 11 = 3 / 6 = 0.5 ;由大幅上涨转移为上涨的次数是2,故转移概率为: p 12 = 2 / 6 0.33 ;由大幅上涨转移为大幅上涨的次数是1,故转移概率为: p 30 = 1 / 6 0.17 ,将其各状态转移概率列成表2

Table 2. Table of state transition probability

表2. 状态转移概率表

表2中的所有元素组成了矩阵P,且满足非负性和归一性,因此P为所求的状态转移概率矩阵:

P = ( p 00 p 01 p 02 p 03 p 10 p 11 p 12 p 13 p 20 p 21 p 22 p 23 p 30 p 31 p 32 p 33 ) = ( 0.30 0.40 0.20 0.10 0.09 0.32 0.45 0.14 0.16 0.32 0.48 0.04 0 0.50 0.33 0.17 )

4.3. 计算各收盘日状态概率

本文将不同时期的状态概率向量用 π ( n ) 表示,根据式(10)计算不同时期的向量。由表1可知,由于第64日收盘价处于下降状态,而无后继资料 [7] ,所以可以认为初始状态向量 π ( 0 ) = ( 0 , 1 , 0 , 0 ) ,利用该向量和状态转移概率矩阵来预测以后各个收盘日价格状态概率。

第64日收盘价状态概率向量:

π ( 1 ) = π ( 0 ) × P ( 0 , 1 , 0 , 0 ) ( 0.30 0.40 0.20 0.10 0.09 0.32 0.45 0.14 0.16 0.32 0.48 0.04 0 0.50 0.33 0.17 ) = ( 0.09 , 0.32 , 0.45 , 0.14 )

第65日收盘价状态概率向量:

π ( 2 ) = π ( 1 ) × P ( 0.1278 , 0.3524 , 0.4242 , 0.0956 )

第66日收盘价状态概率向量:

π ( 3 ) = π ( 2 ) × P ( 0.1379 , 0.3474 , 0.4193 , 0.0953 )

第67日收盘价状态概率向量:

π ( 4 ) = π ( 3 ) × P ( 0.1397 , 0.3482 , 0.4167 , 0.0954 )

第68日收盘价状态概率向量:

π ( 5 ) = π ( 4 ) × P ( 0.1399 , 0.3483 , 0.4161 , 0.0956 )

将以上结果变化为列表3

Table 3. The predicted probability of each closing day

表3. 各收盘日状态转移预测概率

4.4. 构造十六状态概率转移矩阵

表3中计算值可以看出,该股的收盘价状态的变化趋势:随着交易日的增加,即n足够大时,只要状态转移概率矩阵不变(即稳定条件),则状态概率会趋向和初始状态无关的值,并稳定下来,适合长期预测。即该股票在长期有42%左右的可能性处于上涨状态,35%的可能性处于下降状态,14%的可能性处于大幅下降状态,10%的可能性处于大幅上涨状态。预测的结果与实际情况基本一致。因此,该股的前景还算不错。

马尔可夫链系统长期预测条件:

{ w × P = w i = 1 k p i = 1 , w = ( p 1 , p 2 , , p k )

其中P为概率转移矩阵:

P = ( p 11 p 12 p 1 n p n 1 p n 2 p n n )

我们将概率转移矩阵P代入式中,即:

( p 1 , p 2 , p 3 , p 4 ) × ( 0.30 0.40 0.20 0.10 0.09 0.32 0.45 0.14 0.16 0.32 0.48 0.04 0 0.50 0.33 0.17 ) = ( p 1 , p 2 , p 3 , p 4 )

(其中, p 1 + p 2 + p 3 + p 4 = 1 )。

求得: p 1 0.14 , p 2 0.35 , p 3 0.42 , p 4 0.10 可以看出,由稳定状态下计算出的收盘价格状态概率值与递推公式推导的结论一致。我们利用数据来计算股票的期权价值,并分析人们对于股票涨势的看法。

设昨日、今日连续两天大幅下降称为状态1a (DDDD),昨日下降、今日大幅下降称为状态2a (NDDD),昨日上涨、今日大幅下降称为状态3a (NRDD),昨日大幅上涨、今日大幅下降称为状态4a (DRDD);

设昨日大幅下降、今日下降称为状态1b (DDND),设昨日下降、今日下降称为状态2b (NRND),设昨日上涨、今日下降称为状态3b (NRND),设昨日大幅上涨、今日下降称为状态4b (DRND);

设昨日大幅下降、今日上涨称为状态1c (DDNR),设昨日下降、今日上涨称为状态2c (NDNR),设昨日上涨、今日上涨称为状态3c (NRNR),设昨日大幅上涨、今日上涨称为状态4c (DRNR);

设昨日大幅下降、今日大幅上涨称为状态1d (DDDR),设昨日下降、今日大幅上涨称为状态2d (NDDR),设昨日上涨、今日大幅上涨称为状态3d (NRDR),设昨日大幅上涨、今日大幅上涨称为状态4d (DRDR)。

表1,股票价格模型可看作十六状态的马尔可夫链。例如:

p 1 a 2 a = P { ND DD | DD DD } = 1 3 0.33

p 1 a 2 a = P { ND DD | DD DD } = 1 3 0.33

以此类推,其转移概率矩阵P如下:

P = ( p 1 a 1 a p 1 a 2 a p 1 a 4 d p 2 a 1 a p 2 a 2 a p 2 a 4 d p 4 d 1 a p 4 d 2 a p 4 d 4 d ) = ( 0.67 0 0 0 0.33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.5 0 0 0 0.5 0 0 0 0 0 0 0 0.25 0 0 0 0.25 0 0 0 0.25 0 0 0 0.25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.5 0 0 0 0 0 0 0 0.5 0 0 0 0 0 0 0 0 0 0 0 0.29 0 0 0 0.57 0 0 0 0.14 0 0 0 0 0 0 0 0.5 0 0 0 0.25 0 0 0 0.25 0 0 0 0 0 0 0 0.5 0 0 0 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0.5 0 0 0 0.5 0 0 0 0 0 0 0 0.11 0 0 0 0.33 0 0 0 0.56 0 0 0 0 0 0 0 0.17 0 0 0 0.33 0 0 0 0.42 0 0 0 0.08 0 0 0 0.5 0 0 0 0 0 0 0 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.67 0 0 0 0.33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 )

其中,第四行的概率总和为0,因为在表1中不存在昨日大幅上涨、今日大幅下降的情况。

4.5. 多阶十六状态概率转移矩阵

二阶转移概率矩阵 P 2 为:

昨日、今日股票价格大幅下降,后天股票价格大幅下降的概率 p 1 a 1 a 2 = 0.449

昨日、今日股票价格大幅上涨,后天股票价格下降的概率 p 4 d 2 a 2 = 0.500

昨日、今日股票价格上涨,后天股票价格上涨的概率 p 3 c 3 c 2 = 0.176

昨日、今日股票价格下降,后天股票价格下降的概率 p 2 b 2 b 2 = 0.084

这样,我们以两天的股票状况对股票未来进行预测,增加了预测系统的稳定程度,在金融方面具有一定的实际意义。

转移概率矩阵 P 3 为:

5. 预测与检验

我们利用概率矩阵预测第64日(11月3日)的股票情况,已知第62、63日收盘价分别处于大幅上涨、下降的状态,从十六状态转移矩阵P来看,第64日处于下降和上涨的状态各0.5,没有明显的倾向;我们从第64日收盘价状态概率向量 π ( 1 ) 来看,收盘价转移到上涨状态的概率最大,达到0.45;因此预测第64日股票收盘价涨幅在 ( 0 % , 5 % ) 区间范围内;实际第64日收盘价涨幅为3.37%,位于区间范围内,预测结果准确;

预测第65日(11月4日)的股票情况,从十六状态转移矩阵 P 2 和从第65日收盘价状态概率向量 π ( 2 ) 来看,第65日位于上涨状态的概率最大,即预测收盘价涨幅在 ( 0 % , 5 % ) 区间内;实际第65日收盘价涨幅为12.57%,不位于区间范围内,但预测和实际都在上涨;

预测第66日(11月7日)的股票情况,第66日收盘价状态概率向量 π ( 3 ) 中下降状态的概率较前一天有所增加,再结合十六状态转移矩阵 P 3 进行分析,第66日位于下降状态的概率会较大一些,即预测涨幅在 ( 5 % , 0 % ) 区间内;实际第66日收盘价涨幅为−1.40%,位于区间范围内,预测准确,这也体现了随着状态的增多系统的稳定程度在增加。

6. 结论

本文利用马尔可夫模型对西域旅游股票少量的历史数据对股票收盘价格进行预测和分析,结果表明预测与实际结果比较相符。但是仍有预测结果与实际股票波动不吻合的状况,归根结底在于股票还受到市场环境、经济政策、汇率变化、政治等因素的影响。根据东方财富网的资料显示,2022年11月4日创业板指数上涨幅度超过3%,本文认为11月4日涨幅不在预测区间内的主要原因:模型没有考虑到创业板股票当天市场交易环境因素的影响,使得预测涨幅略微保守。

因此,我们要综合考虑各种因素,并随着股票收盘价的更新,及时调整状态转移概率矩阵,从而提高预测结果的可信度,也为投资者提供参考依据,为公司股价提供参考走势。

基金项目

本论文工作由北京市属高校基本科研业务费(No. 110052971921/103)和北京市教委基本科研业务费(No. KM202010009013),大学生科学研究与创业项目(X202210009106)资助。

附录

Table A1. Stock data of western region tourism from July 29, 2022 to November 3, 2022

表A1. 西域旅游2022年7月29日~2022年11月3日股价数据

NOTES

*通讯作者。

参考文献

[1] 张宇山, 廖芹. 马尔可夫链在股市分析中的若干应用[J]. 华南理工大学学报(自然科学版), 2003, 31(7): 74-77.
[2] 彭志行, 夏乐天. 马尔可夫链及其在股市分析中的应用[J]. 应用数学, 2004(S2): 159-163.
[3] 王佳伟, 王志. 基于神经网络的马尔科夫链和遗传算法对股票价格预测研究[J]. 宁波工程学院学报, 2012, 24(3): 29-37.
[4] 刘次华. 随机过程[M]. 第四版. 武汉: 华中科技大学出版社, 2008: 58.
[5] 陈柯伊. 基于时间序列马尔科夫链的股市预测[J]. 数学学习与研究, 2014(23): 112.
[6] 张波, 张景肖. 应用随机过程[M]. 北京: 清华大学出版社, 2004.
[7] 王洲, 范爱华. 基于Markov模型对股票的价格预测[J]. 统计学与应用, 2022, 11(4): 778-784.
https://doi.org/10.12677/sa.2022.114081