分段平稳时间序列中的多变点检测

doi:10.12677/PM.2018.82018

期刊菜单

分段平稳时间序列中的多变点检测
Multiple Change-Points Detection of Piecewise Stationary Time Series

DOI: 10.12677/PM.2018.82018, PDF, HTML, XML, 被引量国家自然科学基金支持
作者: 吴楠^*, 王丹：贵州大学数学与统计学院，贵州贵阳；胡尧：贵州大学数学与统计学院，贵州贵阳；贵州省公共大数据重点实验室，贵州贵阳
关键词: 多变点；似然比；置信区间；最小描述长度准则；Multiple Change-Points； Likelihood Ratio； Confidence Intervals； Minimum Description Length Criterion

摘要: 变点问题在工业、金融、气象等领域有着广泛的应用。针对分段平稳时间序列的多变点检测，提出一种通过构建似然比扫描(LRS)统计量，结合最小描述长度(MDL)准则对变点数量、位置进行估计的方法，将计算上不可行的全局多变点估计问题通过有效分段降为各局部窗口中的多个单变点检测问题。同时对每个估计变点构建了置信区间，为描述变点提供更多信息。最后通过大量数值模拟和交通实例分析证明方法的有效性。

Abstract: The change-point problem has a wide range of applications in the industrial, financial, meteorology and other fields. A method for estimating the numbers, locations of change-point by building the Likelihood ratio scan (LRS) statistics, combined with the Minimum description length (MDL) principle has been proposed. It reduces the computationally infeasible global mul-tiple-change-point estimation problem to a number of single-change-point detection problems in various local windows by effective segmentation. In order to provide more information for describing change points, we have constructed confidence intervals for each of the change points. Finally, extensive simulation studies and example analysis of traffic show the LRS usability practice.

文章引用：吴楠, 胡尧, 王丹. 分段平稳时间序列中的多变点检测[J]. 理论数学, 2018, 8(2): 136-148. https://doi.org/10.12677/PM.2018.82018

1. 引言

近年来，变点检测一直被认为是计量经济学，生物学和统计学的一个重要问题。大量文献探索了时间序列模型中变点的检测。变点估计的第一篇文章是由Hinkley (1970)提出的，他研究i.i.d随机变量序列中变点的极大似然估计，并证明了估计变点依分布收敛于双侧随机游走的最大值，在正态假设下，表明其极限分布可以通过数值方法获得 [1] 。Hinkley (1970)使用类似的方法研究了服从二项分布的随机变量序列，并给出了极限分布的可计算形式 [2] 。但是，对于非正态或非二项分布的情况，其结果不能作为变点的统计推断。直到Yao (1987)表明当参数变化幅度d很小时，Hinkley (1970)的极限分布可以作为变点估计分布的一个良好近似 [3] 。在时间序列领域，Picard (1985)首先研究了自回归(AR)模型中变点的极大似然估计。她假设参数变化幅度是 $d_{n}$ ， $d_{n}$ 取决于样本量n，当 $n \to \infty$ 时， $d_{n} \to 0$ ，结果得到与Yao (1987)相同的极限分布，这为本文后期对变点构建置信区间提供理论支持 [4] 。Davis (2006)提出利用最小描述长度 (MDL: Minimum description length)准则来检测非线性时间序列中的多变点 [5] 。Fryzlewicz (2014)提出wild二元分割(WBS: Wild Binary Segmentation)方法，省去复杂的优化过程，将非平稳时间序列随机分割为分段平稳序列，运用乘积性模型将时间序列自协方差结构中的变点检测问题转化为检测小波周期图中的变点问题 [6] 。Yau (2016)研究了非平稳时间序列中的多变点问题，通过似然比扫描方法将原始序列分解为一段一段的自回归过程，分别对各段AR过程进行建模，AR模型参数发生改变的点即为变点。随着这些方法的产生，非平稳时间序列中的多变点研究问题得到了快速发展 [7] 。

实际上，仅仅检测出变点位置并不能提供完整的信息，相比之下，置信区间可以提供更多信息来对变点进行描述。为了获得置信区间，则需要得到变点估计的渐近分布。Hinkley (1970)、Picard (1985)和Yao (1987)分别研究了估计变点的收敛情况及极限分布，指出变点估计依分布收敛于双侧随机游走的最大值，其极限分布参见Yao (1987)。

本文首先介绍了变点模型及其渐近理论。其次，结合似然比方法构造似然比扫描(LRS: Likelihood ratio scan)统计量进行变点检测，并给出相应的渐近性质及似然比扫描方法的详细执行步骤：1) 使用似然比扫描统计量获得初步变点估计(可能存在过估计问题，将一些不是异常点识别为变点)；2) 采用MDL准则进行模型选择过程，进而得到一组一致变点估计；3) 为每个估计的变化点构建置信区间。最后，利用大量数值模拟和交通实例验证LRS方法的有效性、优良性和实用性。

2. 模型介绍

2.1. 基本假设

假设时间序列 ${X_{t} : t = 1, 2, \dots}$ 是 $F_{t}$ 可测的，并且严格平稳的，遍历的，可表示为

$X_{t} = g (θ, X_{t}, ϵ_{t})$ (1)

其中 $F_{t}$ 是由 ${ϵ_{t}, ϵ_{t - 1}, \dots}$ 生成的 $σ$ 域， $X_{t} = (X_{t}, X_{t - 1}, \dots)$ ， $θ$ 是 $p \times 1$ 维的未知参数向量， ${ϵ_{t}}$ 是独立同分布的。序列 ${X_{t}}$ 的结构由可测量的函数g和参数 $θ$ 刻画，假设参数空间 $Θ$ 是 $ℝ^{p}$ 的有界紧集，且g是关于 $θ$ 连续的。当真实参数时，用 $Μ (θ_{0})$ 表示模型(1)，同理 $θ = θ_{1}$ 时，用 $Μ (θ_{1})$ 表示模型(1)。

首先考虑分段平稳过程中的单变点问题。设 ${X_{1}, \dots, X_{n}}$ 是由两个独立过程组成的随机样本，记 $τ_{1}^{0} \in {1, 2, \dots, n - 1}$ 为真实变点，满足 $δ n < τ_{1}^{0} < (1 - δ) n, δ > 0$ ，则单变点问题模型为

${X_{1}, \dots, X_{τ_{1}^{0}}} \in Μ (θ_{1}^{0}), {X_{τ_{1}^{0} + 1}, \dots, X_{n}} \in Μ (θ_{2}^{0})$ (2)

其中 $θ_{1}^{0}, θ_{2}^{0} \in Θ$ 是两段序列的未知参数，且 $θ_{1}^{0} \neq θ_{2}^{0}$ 。

记条件似然函数 $l_{t} (θ) \equiv \log f_{θ} (X_{t} | X_{t - 1})$ ，其中 $f_{θ}$ 是 $X_{t}$ 给定过去观测值的条件密度函数。则单变点模型(2)的似然函数为

$L_{n} (τ, θ_{1}, θ_{2}) = L_{1 n} (τ, θ_{1}) + L_{2 n} (τ, θ_{2})$

式中 $L_{1 n} (τ, θ_{1}) = \sum_{t = 1}^{τ} l_{t} (θ_{1})$ ， $L_{2 n} (τ, θ_{2}) = \sum_{t = τ + 1}^{n} l_{t} (θ_{2})$ 分别是两段序列的条件对数似然函数。对于给定的 $τ$ ， ${\hat{θ}}_{1 n} (τ) = a r g m a x_{θ_{1}} L_{1 n} (τ, θ_{1})$ ，同理 ${\hat{θ}}_{2 n} (τ) = a r g m a x_{θ_{2}} L_{2 n} (τ, θ_{2})$ ，则变点 $τ$ 可由(3)式进行估计

$\hat{τ} = \arg \max_{1 \leq τ \leq n} L_{n} [τ, {\hat{θ}}_{1 n} (τ), {\hat{θ}}_{2 n} (τ)]$ (3)

变点前后两段的参数估计分别为 ${\hat{θ}}_{1} = {\hat{θ}}_{1 n} (τ)$ ， ${\hat{θ}}_{2} = {\hat{θ}}_{2 n} (τ)$ 。 $\hat{τ}, {\hat{θ}}_{1}, {\hat{θ}}_{2}$ 的一致性证明参见Ling (2016) [8] 。

2.2. 变点估计的渐近分布

对于单变点模型(2)，定义随机游走

$W_{τ} = {\begin{cases} \sum_{t = 1}^{τ} (l_{t} (θ_{1}^{0}) - l_{t} (θ_{2}^{0})), τ > 0, \\ 0, τ = 0, \\ \sum_{t = τ}^{- 1} (l_{t} (θ_{2}^{0}) - l_{t} (θ_{1}^{0})), τ < 0 . \end{cases}$ (4)

当 $τ > 0$ 时 $X_{t} \in M (θ_{2}^{0})$ ， $τ < 0$ 时 $X_{t} \in M (θ_{1}^{0})$ 。参照Ling (2016)的定理2.2(b)，对于固定的 $θ_{1}^{0}$ ， $θ_{2}^{0}$ 有

${\hat{τ}}_{1} - τ_{1}^{0} \overset{d}{\to} \arg \max_{τ \in ℤ} W_{τ}$ (5)

注意到 $W_{τ}$ 的极限分布依赖于未知参数 $θ_{1}^{0}$ ， $θ_{2}^{0}$ ，并且不能得出分布函数的解析式，因此，实践中难以直接使用(5)构造置信区间。Ling (2016)定理3.1推导出了当参数变化很小时 $W_{τ}$ 的近似分布。具体而言，如果 $θ_{1}^{0} - θ_{2}^{0} = O (1 / \sqrt{n})$ ，那么对于任意给定的 $M (M > 0)$

${(\hat{d^{'}} \sum^{^} \hat{d^{'}})}^{2} {(\hat{d^{'}} \hat{Ω} \hat{d^{'}})}^{- 1} (\underset{r \in [- M, M]}{\arg \max} W_{⌊ \hat{m} r ⌋}) \overset{d}{\to} \underset{r \in [- M, M]}{\arg \max} {B (r) - \frac{1}{2} | r |}$ (6)

其中 $\hat{d} = {\hat{θ}}_{1} - {\hat{θ}}_{2}$ ， $\sum^{^} = \frac{1}{2 M} \sum_{t = - M}^{M} \frac{\partial^{2} l_{t} (θ)}{\partial θ \partial θ^{'}} |_{{\hat{θ}}_{2}}$ ， $\hat{Ω} = \frac{1}{2 M} \sum_{t = - M}^{M} (D_{t} ({\hat{θ}}_{2}) - \bar{D}) {(D_{t} ({\hat{θ}}_{2}) - \bar{D})}^{'}$ ， $D_{t} (θ) = \frac{\partial l_{t} (θ)}{\partial θ}$ ， $\bar{D} = \sum_{- M}^{M} \frac{D_{t} ({\hat{θ}}_{2})}{2 M}$ ， $B (r)$ 是 $ℝ$ 上的标准布朗运动， $\hat{m} = {(\hat{d^{'}} \sum^{^} \hat{d^{'}})}^{- 2} (\hat{d^{'}} \hat{Ω} \hat{d^{'}})$ (变点数目)。

进一步，记 $\arg \max_{τ} W_{τ}$ 的分布为 $F_{d} (x)$ ，则当 $s > M$ 时，有

$| F_{d} (x) - P (\arg \max_{τ \in [- s, s]} W_{⌊ τ ⌋} \leq x) | \leq ε$

因此

$\begin{array}{l} | F_{d} (x) - P (m \arg \max_{r \in [- M, M]} W_{⌊ \hat{m} r ⌋} x) | \\ = | F_{d} (x) - P (\arg \max_{r \in [- m M, m M]} W_{⌊ r ⌋} \leq x) | \leq ε \end{array}$

当M充分大时， $r \notin [- M, M]$ 的概率很小，所以当d较小时，

$F_{d} (x) \approx P (\arg \max_{r \in R} [B (r) - | r | / 2] \leq x)$

成立。Yao (1987)证明了 $\arg \max_{r \in R} [B (r) - | r | / 2]$ 的分布 $F (x)$ 具有密度函数：

$f (x) = \frac{3}{2} e^{| x |} Φ (\frac{3}{2} \sqrt{| x |}) - \frac{1}{2} Φ (\frac{\sqrt{| x |}}{2})$ (7)

其中 $Φ (x) = \int_{x}^{\infty} \frac{1}{\sqrt{2π}} \exp (- \frac{u^{2}}{2}) d u$ ， $x \in R \equiv (- \infty, \infty)$ 。故当M充分大，d较小时，可以用 $F (x)$ 来近似 ${(\hat{d^{'}} \sum^{^} \hat{d^{'}})}^{2} {(\hat{d^{'}} \hat{Ω} \hat{d^{'}})}^{- 1} ({\hat{τ}}_{1} - τ_{1}^{0})$ 的分布。利用 $F (x)$ 对变点估计进行置信区间构造，即 $(1 - α) %$ 置信度的置信区间为

$C I = [{\hat{τ}}_{1} - [Δ F_{α / 2}] - 1, {\hat{τ}}_{1} + [Δ F_{α / 2}] + 1]$ (8)

其中 $Δ = (\hat{d^{'}} \hat{Ω} \hat{d^{'}}) {(\hat{d^{'}} \sum^{^} \hat{d^{'}})}^{- 2}$ ， $F_{α / 2} (x)$ 是 $\arg \max_{r \in ℝ} [B (r) - | r | / 2]$ 的 $\frac{α}{2}$ 分位数。

3. 基于似然比扫描 (LRS)方法的多变点估计

结合AR过程的计算优势和强稳健性，考虑将原始序列通过合理分割变为分段平稳AR过程，即将原始序列的多变点估计变为局部单变点估计。

3.1. 基本假设

假设观测值 ${X_{t}}_{t = 1, \dots, n}$ 可以划分为 $m + 1$ 个平稳过程。第j段序列观测值 $X_{j} = {X_{τ_{j - 1} + 1}, \dots, X_{τ_{j}}} \in M (θ_{j})$ ，其中 $j = 1, \dots, m$ ， $τ_{j}$ 是第j个变点，即在 $τ_{j}$ 处第j段AR过程 $AR (p_{j})$ 发生突变，变为第 $j + 1$ 段AR过程 $AR (p_{j + 1})$ 。令 $τ_{0} ≜ 0$ ， $τ_{m + 1} ≜ n$ 。记 $J = (τ_{1}, \dots, τ_{m})$ 为变点的集合。定义 $λ_{j}$ 为第j个变点的相对位置，使得 $τ_{j} = ⌊ λ_{j} n ⌋$ ， $j = 0, \dots, m + 1$ ，且满足当 $ϵ_{λ} > 0$ 时 $\min_{j = 0, \dots, m} (λ_{j + 1} - λ_{j}) > ϵ_{λ}$ 。

3.2. 基于似然比扫描统计量的多变点检测步骤

本节，主要介绍了LRS方法检测多变点的三个步骤，其变点估计及渐近性质将在下节讨论。

第一步：使用似然比扫描统计量获得所有变点集合

分别定义扫描窗口及其相应的观测值为

$W_{t} (h) = {t - h + 1, \dots, t + h}$ ， $X_{W_{t} (h)} = {X_{t - h + 1}, \dots, X_{t + h}}$

其中 $t = h, \dots, n - h$ ，h称为窗口半径， $h = h (n)$ 依赖于样本量n。定义扫描窗口 $W_{t} (h)$ 的似然比扫描统计量

$S_{h} (t) = \frac{1}{h} L_{1 h} (t, {\hat{θ}}_{1}) + \frac{1}{h} L_{2 h} (t, {\hat{θ}}_{2}) - \frac{1}{h} L_{\cdot h} (t, \hat{θ})$

$L_{1 h} (t, {\hat{θ}}_{1})$ ， $L_{2 h} (t, {\hat{θ}}_{2})$ ， $L_{\cdot h} (t, \hat{θ})$ 分别是相应观测序列 ${X_{s}}_{t - h + 1, \dots, t}$ ， ${X_{s}}_{t + 1, \dots, t + h}$ ， ${X_{s}}_{W_{t} (h)}$ 的条件似然函数。具体地说，样本 $z = {z_{1}, \dots, z_{n}}$ 的条件似然函数为

$L (θ) = \sum_{t = 1}^{n} l_{t} (θ) \equiv \sum_{t = 1}^{n} \log f_{θ} (z_{t} | z_{t - 1}, z_{t - 2}, \dots)$

其中 $f_{θ} (z_{t} | z_{t - 1}, z_{t - 2}, \dots)$ 是给定过去观测值的条件密度函数，且当 $s \leq 0$ 时 $z_{s} = 0$ 。

接下来，使用扫描统计量 $S_{h} (t)$ 对序列进行扫描，从而获得一组似然比扫描统计量值的序列 $(S_{h} (h), S_{h} (h + 1), \dots, S_{h} (n - h))$ ，如果t是变点， $S_{h} (t)$ 往往会较大。若 $2 h < n ϵ_{λ}$ ，则每个扫描窗口内至多存在一个变点。因此 $S_{h} (\cdot)$ 的局部最大值构成一组变点估计，记局部变点估计如下

${\hat{J}}^{(1)} = {m \in {h, h + 1, \dots, n - h} : S_{h} (m) = \max_{t \in (m - h, m + h)} S_{h} (t)}$

当 $t \notin [h, \dots, (n - h)]$ 时 $S_{h} (t) ≜ 0$ 。即如果 $S_{h} (m)$ 是扫描窗口 $[m - h + 1, m + h]$ 内的最大值，则m就是该扫描窗口的局部变点估计。记 $\hat{m}$ 为估计变点的数目，表示中的元素个数。

第二步：通过模型选择得到变点一致估计

寻找m， $J$ 的最佳集合即为模型选择问题。从上一步获得的局部变点估计集合 ${\hat{J}}^{(1)}$ 通常会存在过估计问题，即将一些正常值也识别为变点，使得 ${\hat{J}}^{(1)}$ 内不仅包含所有真实变点集合，还包含一些非变点。为了更准确地检测到真实变点，进一步利用合适的信息准则从 ${\hat{J}}^{(1)}$ 中选取最佳的子集作为变点估计。最小描述长度(MDL)准则已经在很多实证研究中体现出显著的优势(如Davis et al. (2006, 2008))，本文选取MDL准则进行模型选择过程。给定一组变点估计 $J = (τ_{1}, \dots, τ_{m})$ ，MDL准则定义为

$MDL (m, J) = \log (m) + (m + 1) \log (n) + \sum_{j = 1}^{m + 1} \sum_{k = 1}^{c_{j}} \log (ζ_{j, k}) + \sum_{j = 1}^{m + 1} \frac{d_{j}}{2} \log (n_{j}) - \sum_{j = 1}^{m + 1} L_{j} ({\hat{θ}}_{j}; X_{j})$

式中 $L_{j} ({\hat{θ}}_{j}; X_{j})$ 是第j段的似然函数， $n_{1}, \dots, n_{j}$ 是每段分割的长度， $d_{j}$ 是 $θ_{j}$ 的维数， $ζ_{j, 1}, \dots, ζ_{j, c_{j}}$ 是整数值参数，分别确定第j段分割的模型参数 [5] [9] 。考虑本文将各段分为AR过程，整数值参数只有AR过程阶数 $p_{j}$ ；又 $θ_{j} = (ϕ_{j, 0}, ϕ_{j, 1}, \dots, ϕ_{j, p}, σ_{ϵ}^{2})$ ，故 $d_{j} = p_{j} + 2$ 。所以针对AR过程，其MDL表达式为

$MDL (m, J) = \log (m) + (m + 1) \log (n) + \sum_{j = 1}^{m + 1} \log (p_{j}) + \sum_{j = 1}^{m + 1} \frac{p_{j} + 2}{2} \log (n_{j}) - \sum_{j = 1}^{m + 1} L_{j} ({\hat{θ}}_{j}; X_{j})$

给定局部变点估计 ${\hat{J}}^{(1)}$ ，可以通过下式精确估计变点

$({\hat{m}}^{(2)}, {\hat{J}}^{(2)}) = \underset{m = | J |, J \subseteq {\hat{J}}^{(1)}}{a r g m i n} MDL (m, J)$

因为 ${\hat{J}}^{(1)}$ 所包含的因素已经远远少于样本容量，所以在 ${\hat{J}}^{(1)}$ 上优化MDL使计算的复杂度大大降低，提高计算效率。本文采用Yao (1984)和Jackson (2005)提到的最优分割(OP)算法对MDL进行优化 [10] [11] 。

第三步：最终估计和置信区间构造

定义新扩展的局部窗口 $E_{j} (h)$ 和第j个变点估计 ${\hat{τ}}_{j}^{(2)} \in {\hat{J}}^{(2)}$ 的相应观测值 $X_{E_{j} (h)}$

$E_{j} (h) = {{\hat{τ}}_{j}^{(2)} - 2 h + 1, \dots, {\hat{τ}}_{j}^{(2)} + 2 h}$ ， $X_{E_{j} (h)} = {X_{{\hat{τ}}_{j}^{(2)} - 2 h + 1}, \dots, X_{{\hat{τ}}_{j}^{(2)} + 2 h}}$

这保证了每个真实变点在相应扩展局部窗口 $E_{j} (h)$ 的 $(\frac{1}{4}, \frac{3}{4})$ 内的概率接近于1。设 $L_{j} (τ, θ_{1}, θ_{2}) = \sum_{t = {\hat{τ}}_{j}^{(2)} - 2 h + 1}^{τ} l_{t} (θ_{1}) + \sum_{t = τ + 1}^{{\hat{τ}}_{j}^{(2)} + 2 h} l_{t} (θ_{2})$ ，定义最终变点估计为

${\hat{τ}}_{j}^{(3)} = \underset{τ \in ({\hat{τ}}_{j}^{(2)} - h, {\hat{τ}}_{j}^{(2)} + h]}{\arg \max} L_{j} (τ, {\hat{θ}}_{j}, {\hat{θ}}_{j + 1})$

其中 ${\hat{θ}}_{j} = {\hat{θ}}_{j} (τ) = a r g m a x_{θ_{1}} \sum_{t = {\hat{τ}}_{j}^{(2)} - 2 h + 1}^{τ} l_{t} (θ_{1})$ ， ${\hat{θ}}_{j + 1}$ 类似定义。此时，可利用2.1中的结论来获得每个最终的变点估计 ${\hat{τ}}_{j}^{(3)}$ 的置信区间。

在最初扫描步骤中， $W_{j} (h)$ 的大小为2h，对给定h，每个时刻t的 $S_{h} (t)$ 的计算复杂度为 $O (h)$ 。在第二步中，使用Jackson (2005)最优分割算法优化MDL时，最小化MDL需要 $O ({({\hat{m}}^{(1)})}^{2} n)$ 的计算复杂度。

在第三步中，由于计算被限制在扩展的局部窗口上，所以计算复杂度为 $O ({\hat{m}}^{(2)} h^{2})$ 。综上，由于 ${\hat{m}}^{(1)}$ 和 ${\hat{m}}^{(2)}$ 都是有限的，因此整个检测到最终变点估计过程的总计算复杂度为 $O (n h + h^{2})$ 。当h较小时，例如 $h = O {\log (n)}$ ，则完整的三步LRS方法需要使用动态规划算法(最优分割算法)的计算复杂度为 $O {n \log (n)}$ ，明显低于 $O {n^{2}}$ 的数量级。如3.3节所示，窗口半径h作为调整参数，其值选取对定理3.1是至关重要的，其中d未知的。但如果h的阶数大于 $O {\log (n)}$ ，例如 $h = O (d_{2} \log {(n)}^{2})$ ，那 $d_{2}$ 的取值不会影响到LRS方法的一致性。因此，随着样本量的增加，这个h的选择在理论上是合理的。经过大量模拟及实证研究发现通常 $d = 2$ 时，各种模型和样本有较好的结果，因此建议当 $n > 800$ 时使用 $\max {50, 2 \log {(n)}^{2}}$ ，当 $n \leq 800$ 时使用 $\max {25, 2 \log {(n)}^{2}}$ 作为h的经验选择。

3.3. 渐近性质

本节主要讨论似然比扫描方法的渐近性质，给出相应定理以保证变点估计数目、位置、置信区间的一致性。

假设3.1. 对任意两个连续的分段 $X_{j} = {X_{τ_{j - 1} + 1}, \dots, X_{τ_{j}}}$ ， $X_{j + 1} = {X_{τ_{j} + 1}, \dots, X_{τ_{j + 1}}}$ ，当 $k \in {τ_{j - 1} + 1, \dots, τ_{j}}$ ，条件似然函数的期望 $E [l_{k} (θ)]$ 在 $θ = θ_{j}^{0}$ 处取得唯一的极大值，同理当 $k \in {τ_{j} + 1, \dots, τ_{j + 1}}$ ， $E [l_{k} (θ)]$ 在 $θ = θ_{j + 1}^{0}$ 处取得唯一的极大值，且 $θ_{j}^{0} \neq θ_{j + 1}^{0}$ 。此外有

${\begin{cases} E [l_{k} (θ_{j + 1}^{0})] < E [l_{k} (θ_{j}^{0})] k \in {τ_{j - 1} + 1, \dots, τ_{j}} \\ E [l_{k} (θ_{j + 1}^{0})] > E [l_{k} (θ_{j}^{0})] k \in {τ_{j} + 1, \dots, τ_{j + 1}} \end{cases}$

假设3.2. 在任意一个分段中， $l_{k} (θ)$ 是关于 ${X_{t}}$ 的连续可测函数，且关于 $θ$ 几乎处处二阶可微。

假设3.3. 令 $Y_{k} (θ) = l_{k} (θ) - E [l_{k} (θ)]$ 。对任意 $θ \in Θ$ ，存在 $K > 0$ 使得 $Ε (e^{| Y_{k} (θ) |}) \leq K, k \in ℕ$ 成立。

假设3.4. 对任意 $θ_{j} \in Θ_{j}$ ，均存在可积函数 $G (X_{t})$ ，使得 $E (G (X_{t})) < \infty$ ， $| l_{t} (θ_{j}) | \leq G (X_{t})$ 。

下面定理3.1确保了所有变点都可以在 ${\hat{J}}^{(1)}$ 的h邻域中确定。

定理3.1. 记真实变点集合为 $J_{0} = (τ_{1}^{0}, \dots, τ_{m_{0}}^{0})$ ，通过第一步扫描统计量得到的局部变点集合为 ${\hat{J}}^{(1)} = ({\hat{τ}}_{1}^{(1)}, \dots, {\hat{τ}}_{{\hat{m}}^{(1)}}^{(1)})$ ，其中 ${\hat{m}}^{(1)} = | {\hat{J}}^{(1)} |$ 。若假设3.1~3.4成立，且 $2 h < n ϵ_{λ} (ϵ_{λ} > 0)$ ，则存在 $d > 0$ ，当 $h \geq d \log (n)$ 时有

$P (\underset{τ \in J_{0}, k = 1, \dots, {\hat{m}}^{(1)}}{m a x m i n} | τ - {\hat{τ}}_{k}^{(1)} | < h) \to 1$

由于变点之间的最小距离为 $n ϵ_{λ} = O (n)$ ，所以真实变点数目 $m_{0}$ 是有限的。但此时并不能保证 ${\hat{m}}^{(1)}$ 等于 $m_{0}$ 。也就是说，变点的数量可能被高估，存在过估计问题。接下来定理3.2阐述了基于MDL准则模型选择方法产生的变点数量和位置的一致性。

定理3.2. 定理3.1成立条件下，当 $ϵ_{λ} > 0$ 时，有 ${\hat{m}}^{(2)} \overset{p}{\to} m_{0}$ 。此外，若 ${\hat{m}}^{(2)} = m_{0}$ ，则有

$P (\underset{j = 1, \dots, m_{0}}{m a x} | {\hat{τ}}^{(2)} - τ_{j}^{0} | < h) \to 1$

由于 $h \geq d \log (n)$ ，定理3.2意味着 $m a x_{j = 1, \dots, m_{0}} | {\hat{τ}}_{j}^{(2)} - τ_{j}^{0} | = O_{p} (h)$ ，与经典收敛速率 $O_{p} (1)$ 相比，显然是不理想的。不过尽管如此，区间 $[{\hat{τ}}_{j} - h + 1, {\hat{τ}}_{j} + h]$ 覆盖真实变点 $τ_{j}^{0}$ 的概率接近依然1，这使扩展的局部窗口产生变点一致最终估计和置信区间变得可行。

定理3.3. 定理3.2成立条件下，若 $3 h < n ϵ_{λ}$ ，同时假设3.4成立，则有

${\hat{τ}}_{j}^{(3)} - τ_{j}^{0} \overset{d}{\to} \underset{τ \in ℤ}{\arg \max} W_{j, τ}$

其中 $W_{j, τ}$ 是一个随机游走如下所示

$W_{τ} = {\begin{cases} \sum_{t = τ_{j}^{0} + 1}^{τ_{j}^{0} + τ} (l_{t} (θ_{j}^{0}) - l_{t} (θ_{j + 1}^{0})), τ > 0, \\ 0, τ = 0, \\ \sum_{t = τ_{j}^{0} + τ + 1}^{τ_{j}^{0}} (l_{t} (θ_{j + 1}^{0}) - l_{t} (θ_{j}^{0})), τ < 0 . \end{cases}$

特别地，此时 ${\hat{τ}}_{j}^{(3)} - τ_{j}^{0} = O_{p} (1)$ 。

由于变点之间的最小距离远大于窗口半径h，即 $n ϵ_{λ} / h \to \infty$ ，扩展的局部窗口 $E_{j} (h)$ 之间的距离亦趋于无穷，所以在一些弱相依条件下，构造的CI是渐近独立的。此时可将2.2中获得单变点置信区间的方法直接应用至多变点模型(其实质也是局部单变点问题)。

4. 数值模拟

下面用数值模拟说明LRS方法的有效性。

4.1. 模型表达

模型A：没有变点的平稳AR(1)过程

模型A用来测试评估统计量在没有变点时的检测性能，即当序列无变点时，统计量是否能准确识别。AR(1)过程 $X_{t} = 0.4 X_{t - 1} + ε_{t}$ ，设样本量 $n = 1024$ 。

模型B：分段平稳AR(1)过程

$X_{t} = {\begin{cases} 0.4 X_{t - 1} + ε_{t}, 1 \leq t \leq 400 \\ - 0.6 X_{t - 1} + ε_{t}, 401 \leq t \leq 612 \\ 0.5 X_{t - 1} + ε_{t}, 613 \leq t \leq 1024 \end{cases}$

模型C：分段平稳AR(2)过程

$X_{t} = {\begin{cases} 0.9 X_{t - 1} + ε_{t}, 1 \leq t \leq 512 \\ 1.69 X_{t - 1} - 0.81 X_{t - 2} + ε_{t}, 512 \leq t \leq 768 \\ 1.32 X_{t - 1} - 0.81 X_{t - 2} + ε_{t}, 769 \leq t \leq 1024 \end{cases}$

模型D：分段平稳分段平稳AR过程(3变点)

$X_{t} = {\begin{cases} 1.399 X_{t - 1} - 0.4 X_{t - 2} + ε_{t}, 1 \leq t \leq 125 \\ 0.3 X_{t - 1} + 0.3 X_{t - 2} + ε_{t}, 126 \leq t \leq 532 \\ 0.9 X_{t - 1} + ε_{t}, 533 \leq t \leq 704 \\ 0.1 X_{t - 1} - 0.5 X_{t - 2} + ε_{t}, 705 \leq t \leq 1024 \end{cases}$

模型E：分段平稳ARMA(1，1)过程(2变点)

$X_{t} = {\begin{cases} - 0.9 X_{t - 1} + ε_{t} + 0.7 ε_{t - 1}, 1 \leq t \leq 512 \\ 0.9 X_{t - 1} + ε_{t}, 513 \leq t \leq 768 \\ ε_{t} - 0.7 ε_{t - 1}, 769 \leq t \leq 1024 \end{cases}$

在模型对比中加入ARMA过程，试图拓展统计量在ARMA过程中的变点识别应用问题。

上述各模型的变点检测模拟结果见表1、图1。

Figure 1. Location of true change-point and LRS estimation

图1. 各模型真实变点与LRS方法估计变点位置

Table 1. Location of true change-point and LRS estimation

表1. 各模型真实变点与LRS方法估计变点位置

结合表1和图1可看出，LRS对于非平稳时间序列中的变点检测问题是有效的，不论是单变点、多变点还是没有变点的情形，均可以较准确的进行检测。在ARMA过程中的变点位置检测会出现偏移，但变点个数均正确，尽管准确率有所下降，不难看出检测到的变点仍在构造的置信区间内。

4.2. 置信区间

本节主要检查变点置信区间的覆盖准确性。通过上述各个模型生成数据。应用LRS方法，在每个估计变点周围利用定理3.3和2.2节的结论构建90％置信区间。设置样本量 $n = 1024$ ，分别各进行100次模拟。结果如表2所示。

表2展示了具体结论，表明最终变点估计 ${\hat{τ}}_{j}^{(3)}$ 对 $τ_{0}$ 做出了较好的估计，且置信区间覆盖概率较高，效果良好。

4.3. 模拟对比

定义利用渐近分布构造的置信区间覆盖率为CR

$C R = \frac{# 置信区间覆盖真实变点}{模拟次数}$

趋近于1，则认为估计效果比较好。

为对比检验LRS方法检测变点的准确率，依旧通过上述5个模型，同时利用LRS方法与经典WBS方法进行比较。各模型分别模拟100次，整理得到结果见表3。

Table 2. Confidence interval coverage of each model

表2. 各模型置信区间覆盖情况

Table 3. Simulation result of LRS and WBS

表3. LRS、WBS模拟结果

结果显示，当非平稳序列为分段平稳AR过程时LRS方法和WBS方法均能较好的检测出变点且位置估计效果都比较好，从变点个数检测和位置估计的准确率上来说，LRS方法准确率明显高于WBS方法，WBS方法存在较严重的变点数目高估问题，将一些本不是变点的点作为变点。通过上述典型模型的变点检测情况，明确了LRS方法的优良性，对各模型均能灵敏的对变点数目进行检测，给出了良好的变点位置估计，同时构建的置信区间覆盖率也较高，证明了LRS方法的实用性。

5. 交通流数据应用实例

以贵阳市宝山北路与东新区路交叉口南北方向车流量数据为例。选取2016年4月4日至2016年4月10日一周(星期一至星期日)车流量数据进行变点检测，验证LRS方法的实用性。数据为每天00:00~23:55每两分钟(共720个)过车数量。宝山北路与东新区路交叉口南北方向一周车流量时序图如图2所示。

考虑工作日、休息日车流量分布情况，分别选取星期四、五、六作为代表，同时利用LRS方法和WBS方法对车流量数据进行变点检测，分别得到各天的变点估计情况如图3~5所示。

Figure 2. Guiyang Baoshan North Road and East New Road intersection south to north one week traffic flow

图2. 贵阳市宝山北路与东新区路交叉口南向北一周车流量时序图

Figure 3. Intersection of Baoshan North Road and East New Roads Thursday, April 7, 2016 estimated traffic flow change point location

图3. 宝山北路与东新区路交叉口2016年4月7日(星期四)车流量变点位置估计

Figure 4. Intersection of Baoshan North Road and East New Roads Friday, April 8, 2016 estimated traffic flow change point location

图4. 宝山北路与东新区路交叉口2016年4月8日(星期五)车流量变点位置估计

Figure 5. Intersection of Baoshan North Road and East New Roads Saturday, April 9, 2016 estimated traffic flow change point location

图5. 宝山北路与东新区路交叉口2016年4月9日(星期六)车流量变点位置估计

通过图3~5可直观清晰的对比两种方法对变点位置的估计情况，WBS方法检测出的变点数目明显多于LRS方法，过估计问题依然普遍存在。从工作日(星期四星期五)的变点位置不难虽然WBS方法估计变点多于LRS方法，但是LRS方法检测出的变点附近WBS方法也识别到了变点的存在，即对于变点的存在性检测两种方法都是足够灵敏的。区别较大的是休息日(星期六)的变点位置估计，LRS方法和WBS 方法检测出的点分别对应时间01:24、07:04、13:02和03:50、06:34、08:54、13:02、21:08。但从实际出发，该交叉路口处于贵阳市中心，很多大型商圈围绕，当星期五结束工作，晚上人们会集中前往娱乐消遣，与朋友聚会等，所以在01:24左右前还属于人群活动时间，成为新的出行“高峰”，01:24左右后人们才陆续休息，此时车流极具下降造成分布改变；休息日不存在早晚高峰问题，但考虑早晨人们开始起床活动或出游等造成07:04左右时交通流分布发生改变，车流量开始增多；非工作日贵阳车辆不实行尾号限行，所以全天车流都较多，在13:02后该路口车流量趋于平稳，分布不在发生改变。

表4展示了LRS方法和WBS方法对2016年4月4日(星期一)至2016年4月10日(星期日)每天车流量的变点识别情况，具体见表4。

Table 4. Contrast of change point of traffic flow data detection results

表4. 交通流数据变点检测结果对比

结果显示工作日(星期一至星期日) LRS方法普遍识别出3个变点，这3个点将车流量数据分为4个子序列，变点位置及对应的时间也相对较为固定，集中在早、中、晚上下班高峰期，与实际也比较符合。针对星期日车流数据LRS方法未识别到，原因可能为：1) 当天数据比较特殊，2) 星期日贵阳城区不限号，当日在所有时间段内车流分布都基本保持不变，尽管从凌晨到上午7点这段时间过车量较少，但并未导致整个车流分布发生改变。其次，WBS方法对变点的识别也是灵敏的，但是过估计问题也十分严重，常将一些奇异点也当作变点处理。通过数值模拟和实证分析都表明相较于目前使用较多的WBS方法，LRS方法不仅能有效识别到变点，而且能够更为准确的对变点位置进行估计，说明LRS方法对变点研究是实践可用的。

6. 结束语

文章考虑了分段平稳时间序列的变点检测问题，假设观测值服从参数不同的非线性时间序列模型(AR模型)，且变点数量及位置均未知，通过构建LRS统计量对序列进行检测，实现序列变点的初步识别，进一步结合MDL准则进行模型选择，估计变点的数量、位置，最后对每个估计变点分别构造置信区间。同时利用WBS算法对序列变点数目及位置进行估计，并对两种算法进行模拟比较。数值模拟结果显示，两种方法均对变点有良好的识别效果，但LRS方法明显优于WBS方法，LRS方法的模型选择过程能更有效的剔除异常值，使得变点估计更为准确。最后，结合贵阳市中心道路车流量数据实例分析，表明方法对于交通流突变分析效果较好。

基金项目

贵州大学2017年研究生创新基金项目(研理工2017067)；国家自然科学基金项目(11661018，11361015)；全国统计科学研究项目(2014LZ46)；贵州省自然科学基金项目(黔科合J字[2014]2058号)。

参考文献

NOTES

^*通讯作者。

参考文献

[1]	Hinkley, D.V. (1970) Inference about the Change-Point in a Sequence of Random Variables. Biometrika, 57, 1-17. [Google Scholar] [CrossRef]
[2]	Hinkley, D.V. and Hinkley, E.A. (1970) Inference about the Change-Point in a Se-quence of Binomial Variables. Biometrika, 57, 477-488. [Google Scholar] [CrossRef]
[3]	Yao, Y.C. (1987) Ap-proximating the Distribution of the Maximum Likelihood Estimate of the Change-Point in a Sequence of Independent Random Va-riables. Annals of Statistics, 15, 1321-1328. [Google Scholar] [CrossRef]
[4]	Picard, D. (1985) Testing and Esti-mating Change-Points in Time Series. Advances in Applied Probability, 17, 841-867. [Google Scholar] [CrossRef]
[5]	Davis, R.A. and Rodriguez-Yam, G.A. (2006) Structural Break Estimation for Nonstatio-nary Time Series Models. Journal of the American Statistical Association, 101, 223-239. [Google Scholar] [CrossRef]
[6]	Fryzlewicz, P. (2014) Wild Binary Segmentation for Multiple Change-Point Detection. The Annals of Statistics, 42, 2243-2281. [Google Scholar] [CrossRef]
[7]	Yau, C.Y. and Zhao, Z. (2015) Inference for Multiple Change Points in Time Series via Likelihood Ratio Scan Statistics. Journal of the Royal Statistical Society, 2015, 78. [Google Scholar] [CrossRef]
[8]	Ling, S. (2016) Estimation of Change-Points in Linear and Nonlinear Time Series Models. Econometric Theory, 32, 402-430. [Google Scholar] [CrossRef]
[9]	Davis, R.A., Lee, T.C.M. and Rodriguez-Yam, G.A. (2008) Break Detection for a Class of Nonlinear Time Series Models. Journal of Time Series Analysis, 29, 834-867. [Google Scholar] [CrossRef]
[10]	Yao, Y.C. (1984) Estimation of a Noisy Discrete-Time Step Function: Bayes and Empirical Bayes Approaches. Annals of Statistics, 12, 1434-1447. [Google Scholar] [CrossRef]
[11]	Jackson, B., Scargle, J.D., Barnes, D., et al. (2005) An Algorithm for Optimal Partitioning of Data on an Interval. IEEE Signal Processing Letters, 12, 105-108. [Google Scholar] [CrossRef]

为你推荐

友情链接