1. 引言
股票市场中包含各种各样的时间序列数据,例如股票收盘价、股票价格指数等。在处理多个时间序列的数据时,需要分析的变量维度有时会很高,这给分析和处理带来了一定的难度。尽管每个时间序列都有各自的变化特点,但它们之间有一定的相关性。利用这种相关性,就能够减少变量的数量,从而减少分析的难度和成本。
本文对奇异值分解 [1] 、因子分析 [2] [3] [4] 和主成分回归 [5] 三种常见的降维方法进行讨论。其中,奇异值分解方法通过提取的奇异值来构造模拟矩阵;因子分析通过提取因子来构造模拟矩阵;主成分回归通过提取主成分和线性回归的方法来构造模拟矩阵。最后通过理论推导和证明的方式说明在一定的条件下,三种方法得到的模拟结果是一致的。
2. 模拟方法
2.1. 基本假设
对于时间序列,这里有一定的条件限制。第一点,时间序列为平稳时间序列;第二点,时间序列的期望值为0。本文中以行业价格指数作为例子,不再对假设条件做过多的讨论。设
是第j
个行业股票指数每日收益率的时间序列,其中
为了简化操作,将时间序列
简化为随机变量
产生的多个独立同分布的样本。设向量
为第j个行业的时间序列对应的数值。那么对于所有的r个行业,有数据矩阵(观测值矩阵)
(1)
对应的样本协方差矩阵为
假设
,
且
。
2.2. 奇异值分解模型
对式(1)定义的矩阵A,由奇异值分解定理,存在正交矩阵
(2)
(3)
和矩阵
(4)
使
其中
为A的奇异值(默认
,下文不再提及)。则
(5)
是矩阵A的一个秩为
的同阶模拟矩阵,均方误差
2.3. 因子分析模拟
假设
由
个公共因子
组成,即
或者写为矩阵形式
设
为样本协方差矩阵S的特征值–特征向量对(默认
为单位向量且
,下文不再提及),则
载荷矩阵L的估计值为
矩阵A的近似估计
(6)
均方误差
其中
。
(这里载荷矩阵的估计使用的是主成分法,因子得分使用的是回归法。)
2.4. 主成分回归模拟
对于
,通过样本协方差矩阵S提取其前s个主成分的估计值
其中
为S的特征值-特征向量对,于是有回归函数
(这里令常数项为0。)
由多元线性回归结果为:
其中
于是矩阵A有近似估计
(7)
均方误差
3. 三种模拟方法的一致性
引理3.1 设A是
阶实矩阵,
,并且有奇异值分解
,具体形式见式(2) (3) (4),则
是A的秩-s最小二乘逼近,使得在所有秩小于等于s的
阶矩阵B中,平方误差和
最小,且最小值为
(见文献 [6] )。
#
引理3.2 设A是
阶实矩阵,
,并且有奇异值分解
,具体形式见式(2) (3) (4),则
即
有特征值-特征向量对
(见文献 [6] )。
#
利用之前的三个模型结果和引理3.1、引理3.2,可以证明下面的定理。
定理3.1 对于在2.2、2.3和2.4中三种使用同阶的低维度矩阵
来模拟原数据矩阵
的方法中(见式(5) (6) (7),且矩阵A满足2.1.中的假设条件),并且都使用样本协方
差矩阵S进行操作时,三种方法的模拟结果相同,即模拟矩阵
其中
且均方误差
达到最小值。
(
为矩阵S的特征值-特征向量对,
的定义见式(3),
的定义见式(4)。)
#
证明:根据
有
(8)
于是由引理3.2有
(9)
(10)
(使(10)式成立有时需要做一定的调整,这里我们不多做考虑。)
令
对于特征值分解方法,有
(11)
对于因子分解方法,由特征值和特征向量的定义,有
(12)
于是
(13)
对于主成分回归方法,有
再使用式(8),(12)得到
(14)
综合式(11),(13)和(14)得到
于是
最后,根据引理3.1和式(9)得到均方误差
达到最小值。
#
4. 结论
当由多个时间序列构成的数据矩阵满足对应时间序列的期望为零,且特征值和特征向量均由对应的样本协方差矩阵提取时,奇异值分解、因子分析和主成分回归构造的降维模拟方法具有一致性(这里的一致性仅限于上文提到的构造方法)。其中,模拟矩阵的结果仅依赖于所提取的特征向量(或奇异值分解的其中一个正交矩阵),模拟矩阵均方误差的结果由所提取的特征值(或奇异值)完全决定。