股票市场数据的低维模拟

doi:10.12677/SA.2019.81017

期刊菜单

股票市场数据的低维模拟
Simulations for Data of Stock Market in Low-Dimensions

DOI: 10.12677/SA.2019.81017, PDF, HTML, XML,
作者: 赵祖鹏^*, 方卫东：华南理工大学数学学院，广东广州
关键词: 降维；奇异值分解；因子分解；主成分回归；模拟； Dimensionality Reduction； SVD； FA； PCR； Simulation

摘要: 股票市场的情况是一个国家在经济上发展水平的重要参考，在分析股票市场数据时往往需要处理高维度的变量数据。直接分析这些高维度的变量数据是一件困难的工作，因此在处理这些数据时会使用降低变量维度的模拟方法来减少分析的难度。奇异值分解、因子分析和主成分回归是三种最常见的被考虑用来降低变量维度的模拟方法。为了比较这三种方法的模拟效果，本文中使用理论推导和证明的方法，得到三种方法在一定条件下有相同模拟效果的结果。于是可以得出在一定的条件下这三种降低变量维度的模拟方法具有一致性的结论。

Abstract: The situations of stock market are important references of a country’s development in economy, and we often have to deal with the high-dimensional data when we analyze those data from stock market. It’s a hard work to analyze those high-dimensional data directly, so we use the simulation methods by reducing the dimensions of variables to decrease the difficulty of analysis. SVD (Singular Value Decomposition), FA (Factor Analysis) and PCR (Principal Component Regression) are three most common simulation methods which are considered to reduce the dimensions of variables. In order to compare simulational effectiveness of the three methods, we used the method of theoretical deduction and demonstration, and got the result that the three methods had the same simulational effectiveness in some case. Hence it was able to draw the conclusion that those three methods of reducing the variable dimensions were coincident in some conditions.

文章引用：赵祖鹏, 方卫东. 股票市场数据的低维模拟[J]. 统计学与应用, 2019, 8(1): 149-154. https://doi.org/10.12677/SA.2019.81017

1. 引言

股票市场中包含各种各样的时间序列数据，例如股票收盘价、股票价格指数等。在处理多个时间序列的数据时，需要分析的变量维度有时会很高，这给分析和处理带来了一定的难度。尽管每个时间序列都有各自的变化特点，但它们之间有一定的相关性。利用这种相关性，就能够减少变量的数量，从而减少分析的难度和成本。

本文对奇异值分解 [1] 、因子分析 [2] [3] [4] 和主成分回归 [5] 三种常见的降维方法进行讨论。其中，奇异值分解方法通过提取的奇异值来构造模拟矩阵；因子分析通过提取因子来构造模拟矩阵；主成分回归通过提取主成分和线性回归的方法来构造模拟矩阵。最后通过理论推导和证明的方式说明在一定的条件下，三种方法得到的模拟结果是一致的。

2. 模拟方法

2.1. 基本假设

对于时间序列，这里有一定的条件限制。第一点，时间序列为平稳时间序列；第二点，时间序列的期望值为0。本文中以行业价格指数作为例子，不再对假设条件做过多的讨论。设 ${X_{j} (t), t \in ℕ}$ 是第j $(j = 1, 2, \dots, r)$ 个行业股票指数每日收益率的时间序列，其中

$每日收益率 = (当日收盘价 - 昨日收盘价) / 昨日收盘价$

为了简化操作，将时间序列 ${X_{j} (t), t \in ℕ}$ 简化为随机变量 $X_{j}$ 产生的多个独立同分布的样本。设向量

$x_{j} = {[x_{1 j}, x_{2 j}, \dots, x_{n j}]}^{T}$

为第j个行业的时间序列对应的数值。那么对于所有的r个行业，有数据矩阵(观测值矩阵)

$\underset{(n \times r)}{A} = [x_{1}, x_{2}, \dots, x_{r}]$ (1)

对应的样本协方差矩阵为

$\underset{(r \times r)}{S} = [\begin{matrix} s_{11}^{2} & \dots & s_{1 r}^{2} \\ ⋮ & ⋱ & ⋮ \\ s_{r 1}^{2} & \dots & s_{r r}^{2} \end{matrix}]$

假设 $n > r$ ， $\frac{1}{n} \sum_{i = 1}^{n} x_{i j} = 0 (j = 1, 2, \dots, r)$ 且 $rank (A) = r$ 。

2.2. 奇异值分解模型

对式(1)定义的矩阵A，由奇异值分解定理，存在正交矩阵

$\underset{(n \times n)}{U} = [u_{1}, u_{2}, \dots, u_{n}]$ (2)

$\underset{(r \times r)}{V} = [v_{1}, v_{1}, \dots, v_{r}]$ (3)

和矩阵

$\underset{(n \times r)}{M} = {[\begin{matrix} μ_{1} \\ μ_{2} \\ ⋱ \\ μ_{r} \end{matrix} \begin{matrix} \underset{(r \times (n - r))}{0} \end{matrix}]}^{T}$ (4)

使

$A = U M V^{T}$

其中 $μ_{i} (i = 1, 2, \dots, r)$ 为A的奇异值(默认 $μ_{1} \geq μ_{2} \geq \dots \geq μ_{r} \geq 0$ ，下文不再提及)。则

$B_{SVD} = \sum_{i = 1}^{s} μ_{i} u_{i} v_{i}^{T}$ (5)

是矩阵A的一个秩为 $s (s < r)$ 的同阶模拟矩阵，均方误差

$M S E_{SVD} = \frac{1}{(n - 1) r} t r [(A - B) {(A - B)}^{T}] = \frac{1}{(n - 1) r} \sum_{i = s + 1}^{p} μ_{i}^{2}$

2.3. 因子分析模拟

假设 $X_{j}$ 由 $s (s < r)$ 个公共因子 $F_{i}$ 组成，即

$\begin{array}{l} X_{1} = l_{11} F_{1} + l_{12} F_{2} + \dots + l_{1 s} F_{s} + ε_{1} \\ X_{2} = l_{21} F_{1} + l_{22} F_{2} + \dots + l_{2 s} F_{s} + ε_{2} \\ ⋮ \\ X_{r} = l_{r 1} F_{1} + l_{r 2} F_{2} + \dots + l_{r s} F_{s} + ε_{r} \end{array}$

或者写为矩阵形式

$\underset{(r \times 1)}{X} = \underset{(r \times s)}{L} \underset{(s \times 1)}{F} + \underset{(r \times 1)}{ε}$

设 $({\hat{λ}}_{k}, {\hat{e}}_{k}), k = 1, 2, \dots, r$ 为样本协方差矩阵S的特征值–特征向量对(默认 ${\hat{e}}_{k}$ 为单位向量且 ${\hat{λ}}_{1} \geq {\hat{λ}}_{2} \geq \dots \geq {\hat{λ}}_{r} \geq 0$ ，下文不再提及)，则

载荷矩阵L的估计值为

$\underset{(r \times s)}{\hat{L}} = [\begin{matrix} \sqrt{{\hat{λ}}_{1}} {\hat{e}}_{1} & \sqrt{{\hat{λ}}_{2}} {\hat{e}}_{2} & \dots & \sqrt{{\hat{λ}}_{s}} {\hat{e}}_{s} \end{matrix}] = {{\hat{l}}_{i j}}_{r \times s}$

矩阵A的近似估计

$B_{FA} = A S^{- 1} \hat{L} {\hat{L}}^{T}$ (6)

均方误差

$M S E_{FA} = \frac{1}{(n - 1) r} t r [(A - B) {(A - B)}^{T}] = \frac{1}{r} \sum_{i = 1}^{r} {\hat{ψ}}_{i}$

其中 ${\hat{ψ}}_{i} = s_{i i}^{2} - {\hat{l}}_{i 1}^{2} - \dots - {\hat{l}}_{i s}^{2} = Var ({\hat{ε}}_{i})$ 。

(这里载荷矩阵的估计使用的是主成分法，因子得分使用的是回归法。)

2.4. 主成分回归模拟

对于 $X_{j} (j = 1, 2, \dots, p)$ ，通过样本协方差矩阵S提取其前s个主成分的估计值

${\hat{Y}}_{k} = {[{\hat{y}}_{k 1}, {\hat{y}}_{k 2}, \dots, {\hat{y}}_{k n}]}^{T} = A {\hat{e}}_{k}, k = 1, 2, \dots, s$

其中 $({\hat{λ}}_{k}, {\hat{e}}_{k})$ 为S的特征值-特征向量对，于是有回归函数

$x_{j} = β_{j 1} {\hat{Y}}_{1} + β_{j 2} {\hat{Y}}_{2} + \dots + β_{j s} {\hat{Y}}_{s} + ε_{j}, j = 1, 2, \dots, r$

(这里令常数项为0。)

由多元线性回归结果为：

${\hat{β}}_{j} = {[β_{j 1}, β_{j 2}, \dots, β_{j s}]}^{T} = {({\hat{Y}}^{T} \hat{Y})}^{- 1} {\hat{Y}}^{T} x_{j}$

其中

$\underset{(n \times s)}{\hat{Y}} = [\begin{matrix} {\hat{Y}}_{1} & {\hat{Y}}_{2} & \dots & {\hat{Y}}_{s} \end{matrix}]$

于是矩阵A有近似估计

$B_{PCR} = \hat{Y} {({\hat{Y}}^{T} \hat{Y})}^{- 1} {\hat{Y}}^{T} A$ (7)

均方误差

$M S E_{PCR} = \frac{1}{(n - 1) r} t r [(A - B) {(A - B)}^{T}]$

3. 三种模拟方法的一致性

引理3.1 设A是 $n \times r (n > r)$ 阶实矩阵， $s < r = rank (A)$ ，并且有奇异值分解 $U M V^{T}$ ，具体形式见式(2) (3) (4)，则

$B^{*} = \sum_{i = 1}^{s} μ_{i} u_{i} v_{i}^{T}$

是A的秩-s最小二乘逼近，使得在所有秩小于等于s的 $n \times r$ 阶矩阵B中，平方误差和 $t r [(A - B) {(A - B)}^{T}]$ 最小，且最小值为 $\sum_{i = s + 1}^{r} μ_{i}^{2}$ (见文献 [6] )。

引理3.2 设A是 $n \times r (n > r)$ 阶实矩阵， $r = rank (A)$ ，并且有奇异值分解 $U M V^{T}$ ，具体形式见式(2) (3) (4)，则

$A^{T} A v_{i} = μ_{i}^{2} v_{i}, i = 1, 2, \dots, r$

即 $A^{T} A$ 有特征值-特征向量对 $(μ_{i}^{2}, v_{i})$ (见文献 [6] )。

利用之前的三个模型结果和引理3.1、引理3.2，可以证明下面的定理。

定理3.1 对于在2.2、2.3和2.4中三种使用同阶的低维度矩阵 $B (rank (B) = s)$ 来模拟原数据矩阵 $A (rank (A) = r, r > s)$ 的方法中(见式(5) (6) (7)，且矩阵A满足2.1.中的假设条件)，并且都使用样本协方

差矩阵S进行操作时，三种方法的模拟结果相同，即模拟矩阵

$B_{FA} = B_{PCR} = B_{SVD} = A V_{s} V_{s}^{T}$

其中

$\underset{(r \times s)}{V_{s}} = [v_{1}, v_{2}, \dots, v_{s}] = [{\hat{e}}_{1}, {\hat{e}}_{2}, \dots, {\hat{e}}_{s}]$

且均方误差

$M S E_{SVD} = M S E_{FA} = M S E_{PCR} = \frac{1}{r} \sum_{i = s + 1}^{r} {\hat{λ}}_{i} = \frac{1}{(n - 1) r} \sum_{i = s + 1}^{r} μ_{i}^{2}$

达到最小值。

( $({\hat{λ}}_{i}, {\hat{e}}_{i})$ 为矩阵S的特征值-特征向量对， $v_{i}$ 的定义见式(3)， $μ_{i}$ 的定义见式(4)。)

证明：根据 $\frac{1}{n} \sum_{i = 1}^{n} x_{i j} = 0 (j = 1, 2, \dots, r)$ 有

$\frac{1}{n - 1} A^{T} A = S$ (8)

于是由引理3.2有

${\hat{λ}}_{i} = \frac{μ_{i}^{2}}{n - 1}, i = 1, 2, \dots, r$ (9)

$v_{i} = {\hat{e}}_{i}, i = 1, 2, \dots, r$ (10)

(使(10)式成立有时需要做一定的调整，这里我们不多做考虑。)

令

$\underset{(s \times s)}{\hat{Λ}} = [\begin{matrix} {\hat{λ}}_{1} & 0 & \dots & 0 \\ 0 & {\hat{λ}}_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & {\hat{λ}}_{s} \end{matrix}]$

对于特征值分解方法，有

$B_{SVD} = \sum_{i = 1}^{s} μ_{i} u_{i} {v^{'}}_{i} = U M V^{T} V_{s} V_{s}^{T} = A V_{s} V_{s}^{T}$ (11)

对于因子分解方法，由特征值和特征向量的定义，有

$S V_{s} = V_{s} \hat{Λ}$ (12)

于是

$B_{FA} = A S^{- 1} \hat{L} {\hat{L}}^{T} = A S^{- 1} V_{s} {\hat{Λ}}^{1 / 2} {(V_{s} {\hat{Λ}}^{1 / 2})}^{T} = A S^{- 1} V_{s} \hat{Λ} V_{s}^{T} = A V_{s} V_{s}^{T}$ (13)

对于主成分回归方法，有

$\hat{Y} = A V_{s}$

再使用式(8)，(12)得到

$B_{PCR} = \hat{Y} {({\hat{Y}}^{T} \hat{Y})}^{- 1} {\hat{Y}}^{T} A = A V_{s} {(V_{s}^{T} S V_{s})}^{- 1} V_{s}^{T} S = A V_{s} V_{s}^{T}$ (14)

综合式(11)，(13)和(14)得到

$B_{FA} = B_{PCR} = B_{SVD} = A V_{s} V_{s}^{T}$

于是

$M S E_{SVD} = M S E_{FA} = M S E_{PCR}$

最后，根据引理3.1和式(9)得到均方误差

$M S E_{SVD} = M S E_{FA} = M S E_{PCR} = \frac{1}{p} \sum_{i = s + 1}^{p} {\hat{λ}}_{i} = \frac{1}{(n - 1) p} \sum_{i = s + 1}^{p} μ_{i}^{2}$

达到最小值。

4. 结论

当由多个时间序列构成的数据矩阵满足对应时间序列的期望为零，且特征值和特征向量均由对应的样本协方差矩阵提取时，奇异值分解、因子分析和主成分回归构造的降维模拟方法具有一致性(这里的一致性仅限于上文提到的构造方法)。其中，模拟矩阵的结果仅依赖于所提取的特征向量(或奇异值分解的其中一个正交矩阵)，模拟矩阵均方误差的结果由所提取的特征值(或奇异值)完全决定。

参考文献

[1]	罗小桂. 矩阵奇异值分解(SVD)的应用[J]. 井冈山医专学报, 2005, 12(4): 133-135.
[2]	范龙振, 余世典. 中国股票市场的三因子模型[J]. 系统工程学报, 2002, 17(6): 537-546.
[3]	任福匀. 因子分析法在我国股票市场行业投资价值评价中的应用[D]: [硕士学位论文]. 长沙: 中南大学, 2005.
[4]	Zhang, W. (2011) APT Model Based on Factor Analysis and an Empirical Study in China’s Growth Enterprise Market. 2011 2nd International Conference on Artificial Intelligence, Management Science and Electronic Commerce (AIMSEC), Dengleng, 8-10 August 2011, 994-997. [Google Scholar] [CrossRef]
[5]	张亚梅. 基于主成分回归分析科技创新对金融业的影响——以甘肃省为例[J]. 甘肃科技纵横, 2018, 47(9): 81-85.
[6]	理查德.A.约翰逊, 迪安.W.威克恩. 实用多元统计分析[M]. 第6版. 陆璇, 叶俊, 译. 北京: 清华大学出版社, 2008: 76-78.

为你推荐

友情链接