基于模糊聚类的羊群效应检测方法

doi:10.12677/MOS.2021.104104

期刊菜单

基于模糊聚类的羊群效应检测方法
Detection Method of Herding Effect Based on Fuzzy Clustering

DOI: 10.12677/MOS.2021.104104, PDF, HTML, XML,
作者: 蔡炜, 徐圣兵, 韦塬瀚：广东工业大学应用数学学院，广东广州；周颖彤：广东工业大学管理学院，广东广州
关键词: 羊群效应；模糊聚类；最大–最小类别判断准则；Herding Effect； Fuzzy Clustering； Maximum Minimum Category Criterion

摘要: 为检测股票市场中有无出现羊群效应，以及个股的羊群效应程度和股市不同时间段的羊群效应程度，提出一种基于模糊聚类的羊群效应分析方法。通过计算股票每天的开盘收盘价得到收益率，计算收益率一阶差分构建具有时间序列属性的收益变化特征。将每支股票作为单个样本，采用模糊C均值聚类方法得到隶属度矩阵。建立类别判断准则，计算第一类样本隶属度与第二类样本隶属度的最大/最小差值，将出现最大/最小差值的样本与收益变化特征均值的方法来判断哪一类是羊群效应。相比计算横截面标准差等传统方法再进行线性回归得到回归系数，该方法具有能够表现个股羊群效应优势；相比k-means聚类计算羊群效应，该方法用隶属度能够得到更多的聚类信息。

Abstract: In order to detect whether there is herd behavior in the stock market, the degree of herd behavior of individual stocks and the degree of herd behavior in different periods of stock market, this paper proposes an analysis method of herding effect based on fuzzy clustering. By calculating the daily opening and closing prices of the stock to get the yield, the first-order difference of the yield is calculated to construct the return change characteristics with time series attribute. Taking each stock as a single sample, the membership matrix is obtained by fuzzy c-means clustering. The maxi-mum/minimum difference between the membership degree of the first kind of sample and the membership degree of the second type sample is calculated by establishing the category judgment criteria. The method of the sample with the maximum/minimum difference and the mean value of the income change characteristics are used to determine which kind of herding behavior is. Com-pared with traditional methods such as calculating cross-section standard deviation and linear regression to get the regression coefficient, this method can show individual stock herding effect; compared with k-means clustering, this method can get more clustering information by member-ship degree.

文章引用：蔡炜, 徐圣兵, 周颖彤, 韦塬瀚. 基于模糊聚类的羊群效应检测方法[J]. 建模与仿真, 2021, 10(4): 1043-1053. https://doi.org/10.12677/MOS.2021.104104

1. 引言

由于投资者缺乏或不了解信息，很难对市场未来的不确定性做出合理的预期，因此，他们往往是通过周围人的行为来获得信息的，这些行为大多与周围人的行为相似，并会相互强化，导致从众心理。经济领域中，投资者的“从众心理”通常被称为“羊群效应”。以往研究发现，金融危机的发生与羊群效应的不稳定性有密切关系，并从羊群效应的角度对系统性问题做出了新的解释，同时也发现了许多有效市场假设无法解释的现象。为了解释这些现象，人们对羊群效应理论产生了兴趣。

自上世纪90年代以来，行为金融的研究取得了长足的发展，许多学者提出了羊群效应的理论模型，包括理论模型和实证模型。羊群效应在理论上可分为信息瀑布模型和个人信用模型，Banerjee (1992) [1] 提出的信息瀑布模型是按行为顺序建立的，Bikhchanbani、Hirshleife和Welch [2] (1998)提出了投资者形成羊群新效应的条件，而Avery (1998) [3] 则指出，有关固定资产价格的假设与实际情况不符。Schchafstein和Stein [4] 的个人信贷风险模型(1990)和Graham [5] 的模型(1999)进一步表明，基金管理公司倾向于模仿Value Line的投资条件，而Zwiebel [6] (1995)则通过对基金管理公司相互模仿行为的实证分析，发现除了极少数极好或极差的公司之外，所有基金管理公司在投资活动中都保守地遵循行业标准。除此之外，比较典型的实证模型有：具体投资机构行为研究的LSV [7] 模型、以股票价格分散度为指标的整体股价波动CH模型以及CCK模型等。Grinblatt，Titman和Wermers [8] (1995)在LSV模型的基础上做了简单的修正，提出了通过改变组合的数量来克服LSV模型的局限性。由Christie，Huang (1995)提出的CH模型将CSSD [9] 值和市场波动的哑变量作为一种回归，该模型将股票收益的横截面标准差(CSSD)作为衡量股票总体羊群行为的指标。但是，以上模型，有些只是用买卖数量来衡量，不能反映不同时期的交易情况，有些只是衡量股票市场上较强的羊群行为，回归结果往往不显著。

自2000年以来，国内学者在借鉴国外一些早期文献的基础上，也开始了关于羊群效应的相关研究。宋军、吴冲锋 [10] 运用CH模型发现我国证券市场存在明显的羊群效应。施东晖(2004) [11] [12] 认为单纯使用CH模型和CCK模型是不能区分羊群在市场中的真实价值。陈浩(2004)应用LSV方法检验发现羊群行为显著存在于投资基金之间，并且与股票流通股规模、股票历史收益率等属性有一定程度的相关性。针对CH模型在衡量市场中小幅度羊群行为时存在的缺陷，Chang，Cheng，Khorana (1998)提出了CCK [13] 模型。利用CSAD替代了CSSD的截面绝对偏差，并在CAPM模型的框架下证明了CSAD与市场收益率R之间存在线性增长关系。CSAD和R之间的线性相关性在市场上存在羊群效应时消失，用简单的回归模型就可以检测出这种效应。对CH模型、CCK模型和CAPM模型分别进行时序再回归计算，得到的回归系数只能用于判断该时期股票的羊群效应是否明显 [8] [14]，不可能区分每一时期甚至每一股票是否有羊群效应。此外，2010年郭旭超 [15] 还提出了基于聚类的羊群效应分析方法，即以时间为样本，以股票的总收益为特征，对k-means进行聚类。相对于传统的CH模型，该方法可以在不同时间区域有效地观察羊群效应的发生情况，但是与线性回归方法相比，它丢失了关于羊群效应发生程度的重要信息 [16]。

本研究基于羊群效应的k-means聚类分析，建立了基于模糊聚类的羊群效应分析方法。利用模糊C-均值聚类法得到隶属度矩阵，建立了分类判别准则。以2020年11月股票数据为例，对基于k-means聚类和模糊C-均值聚类(Fuzzy c-means clustering, FCM)方法的羊群效应进行了创新性的对比。

2. 相关工作

2.1. 检验羊群效应的模型与方法

2.1.1. CH模型

认为市场中若存在显著的羊群行为，那么大部分的投资者的投资买卖交易将有一定的趋同性，因而个股的收益率应该接近股市整体的收益率。故CH模型中的个股收益率的横截面标准差(Cross-Sectional Standard Deviation, CSSD)为：

$C S S D_{t} = \sqrt{\frac{\sum_{i = 1}^{n} (R_{i t} - R_{m t})}{n - 1}}$ (1)

其中 $R_{i t}$ 表示第i支股票在t时刻的收益率， $R_{m t}$ 表示股市在t时刻的整体收益率。

$R_{m t} = \frac{\sum_{i = 1}^{n} R_{i t}}{n}$ (2)

$C S S D_{t}$ 越小，说明在t时刻股市的羊群效应越明显。根据D值线性回归：

$C S S D_{t} = α + β_{1} D_{t}^{H} + β_{2} D_{t}^{L}$ (3)

其中 $D_{t}^{H}$ 和 $D_{t}^{L}$ 分别表示市场在t时刻出现股价大幅上涨、下跌时的哑变量。股价大幅下跌， $C S S D_{t}$ 的值下降，此时可认为市场存在羊群效应，故在回归模型中， $β_{1}$ 和 $β_{2}$ 应显著为负。

2.1.2. CCK模型

CCK模型是与CH模型中的度量指标CSSD相似的收益率横截面绝对偏离差(Cross-Section Absolute Deviation, CSAD)

$C S A D_{t} = \frac{1}{n} \sum_{i = 1}^{n} | R_{i t} - R_{m t} |$ (4)

$C S A D_{t}$ 与市场收益率 $R_{i t}$ 线性相关。

2.1.3. CAPM模型

CAPM模型提出包含 $β_{m t}$ 系数的指标代替CSSD、CSAD作为羊群行为度量指标，剔除个股信息和市场整体重大信息等因素对羊群行为指标的影响，有效地检测出市场中的真羊群行为。

$β_{m} = \frac{1}{n} \sum_{i = 1}^{n} β_{i}$ (5)

$E (C S A D_{t}) = \frac{1}{n} \sum_{i = 1}^{n} | β_{i} - β_{m} | \cdot (E (R_{m t}) - R_{f})$ (6)

$C S A D_{t} = α + β_{1} | R_{m t} | + β_{2} R_{m t}^{2}$ (7)

2.2. 模糊C均值聚类算法

模糊C均值聚类算法(FCM)是一种常用的聚类算法 [17]。目前，FCM及其导数聚类方法已广泛应用于计算机视觉、模式识别、数据挖掘等领域。FCM算法是Bezdek于1973年提出的一种改进硬C均值聚类的方法 [17]。与HCM和k-means [18] [19] 等硬算法相比，它最大的优点是用区间[0, 1]的隶属度来表示样本的聚类结果，以表示样本趋于 [19] [20] [21] 的某种纯度。

设在p维的欧几里得空间 $R^{p}$ 中的n个样本 $X = {x_{1}, x_{2}, x_{3}, \dots, x_{n}} \in R^{p}$ ，其中 $j = 1, 2, \dots, n$ ；则FCM的聚类准则目标函数为：

$J (U, V) = \sum_{i = 1}^{c} \sum_{j = 1}^{n} {(u_{i j})}^{m} {‖ x_{j} - v_{i} ‖}^{2}$ (8)

其中c 为预先给定的聚类中心数，且 $1 < c < n$ ； m为预先给定的加权幂指数，用于影响隶属度矩阵的模糊度； $v_{i}$ 为第i类的聚类中心； $u_{i j}$ 表示样本j属于第i类的程度，并且满足 $\sum_{i = 1}^{c} u_{i j} = 1$ 。由目标函数可知需求得当J达到最小值时的U和V，因此由J作为目标变量对 $u_{i j}, v_{i}$ 求偏导，令它们的导数为零并代入条件 $\sum_{i = 1}^{c} u_{i j} = 1$ 得到隶属度与聚类中心的迭代公式：

$u_{i j} = \frac{{(\frac{1}{{‖ x_{j} - v_{k} ‖}^{2}})}^{\frac{1}{m - 1}}}{\sum_{i = 1}^{c} {(\frac{1}{{‖ x_{j} - v_{i} ‖}^{2}})}^{\frac{1}{m - 1}}}$ (9)

$v_{i} = \frac{\sum_{j = 1}^{n} {(u_{i j})}^{m} x_{j}}{\sum_{j = 1}^{n} {(u_{i j})}^{m}}$ (10)

通过对上述两个公式进行迭代求得当J收敛到极小值 $u_{i j}$ 和 $v_{i}$ 的值，即隶属度矩阵U和聚类中心V，此为最终聚类结果。

3. 基于模糊聚类的羊群效应检测

3.1. 建模动机

CH模型、CCK模型等经典模型仅仅可用于判断市场是否存在羊群效应，并且得到羊群效应的明显程度。而基于k-means聚类的方法虽然可以研究某个时间段是否出现羊群效应，但是这种硬聚类的方法没有得到市场出现羊群效应明显程度这一信息。

综上，本文提出基于模糊聚类的方法对市场股票或时间段进行建模分析有无出现羊群效应以及程度。

3.2. 构建特征

当股票价格下跌时，羊群效应表现为刚开始会出现缓慢的下跌，但是当投资者出现大量抛售，导致股票价格暴跌，如图1所示：

Figure 1. Falling herd effect

图1. 跟跌羊群效应

因而想要分析股市的羊群效应，可以通过股市在一段时间序列内的信息来判断是否有羊群效应。根据股票构建收益率作为羊群效应检测特征。

$R_{i t} = \frac{p_{i t} - p_{i τ}}{p_{i τ}}$ (11)

其中 $τ = t - 1$ ， $R_{i t}$ 表示第i支股票t时刻的收益率， $p_{i t}$ 表示第i支股票t时刻的收盘价。

对样本构建不同的特征，采用相同的机器学习方法会得到不同的结果，如图2中的是具有时间序列的三个样本。

Figure 2. Samples to be clustered

图2. 待聚类的样本

而以不同规则可以得到不同的聚类结果(相同颜色表示同一类)，如图3所示：

Figure 3. Different clustering results by different criteria

图3. 不同准则得到不同聚类结果

而描述股市的羊群效应，其实是一个描述时间变化的过程，因而更像是图3(a)的情况，因而用收益率的一阶差分来表示样本在某段的变化情况。

$x_{i j} = R_{i, t + 1} - R_{i, t}$ (12)

其中 $t = {1, 2, \dots, T - 1}$ ，故 $j = {1, 2, \dots, t - 1}$ 。

3.3. 羊群效应检测

3.3.1. 股票羊群效应检测模型

令 $X = [x_{i j}]$ ，其中 $i = {1, 2, \dots, n}$ ，进行聚类得到隶属度矩阵 $u_{i j}$ ，但得到隶属度矩阵之后是不知道哪一类是出现羊群效应，哪一类没有出现羊群效应的。因而通过计算股票收益率变化程度来用以类别判断。

建立最大–最小类别判断准则：

$θ_{1} = \arg \max_{j} (u_{1 j} - u_{2 j})$ (13)

$θ_{2} = \arg \min_{j} (u_{1 j} - u_{2 j})$ (14)

$θ_{1}$ 和 $θ_{2}$ 是羊群效应最明显样本或最不明显样本的编号。计算收益率变化程度：

$δ_{1} = \sum_{j = 1}^{t} {(x_{θ_{1} j} - \bar{x_{θ_{1} j}})}^{2}$ (15)

$δ_{2} = \sum_{j = 1}^{t} {(x_{θ_{2} j} - \bar{x_{θ_{2} j}})}^{2}$ (16)

若 $δ_{1} > δ_{2}$ 则第一类为出现羊群效应，若 $δ_{1} < δ_{2}$ 则为第二类出现羊群效应。

3.3.2. 时间段羊群效应检测模型

令 $X = {[x_{i j}]}^{T}$ ，进行聚类得到隶属度矩阵 $u_{i j}$ ，此时仍然需要因而通过计算单个样本的CAPM值来用以类别判断。

仍然根据表达式(13)和(14)计算 $θ_{1}$ 和 $θ_{2}$ ，进一步计算收益分散度：

$S_{1} = \frac{1}{n} \sum_{i = 1}^{n} {(β_{i θ_{1}} - 1)}^{2}$ (17)

$S_{2} = \frac{1}{n} \sum_{i = 1}^{n} {(β_{i θ_{2}} - 1)}^{2}$ (18)

因为当市场中存在羊群效应时，收益分散度显著为0。所以当 $S_{1} < S_{2}$ 时，第一类为出现羊群效应，当 $S_{1} > S_{2}$ 时，第二类为出现羊群效应。

4. 实验

4.1. 数据的选取与预处理

为了研究中国股票市场中羊群效应的存在性及其存在的时间段，本文实验数据选取国泰安数据¹，计算入上证指数的只股票进行实证分析，样本选取的时间为2020年11月2日到2020年11月27日，共20个交易日。因为聚类方法适用于符合正态分布的数据，为了保持本文方法在不同数据中的准确性、有效性，故先通过进行Kolmogorov-Smirnov正态分布检验 [19] [21]，如果不通过则进行中位数绝对偏差(MAD)剔除出现离群点的异常样本。利用股票的日开盘价格和收盘价格数据，计算下列信息：

① 计算每支股票在不同时间的收益率 $R_{i t}$ ，其中 $i = {1, 2, \dots, n}, t = {1, 2, \dots, T}$ ；

② 整体收益率 $R_{m t}$ ；

③ 根据表达式( 12 )计算变化趋势得到 $x_{i j}$ ；

④ 聚类得到隶属度矩阵 $u_{i j}$ ；

⑤ 根据判别准则判断哪一类是出现羊群效应的类别；

⑥ 结束。

4.2. 检测股票出现的羊群效应实验对比

根据建模求解计算得到部分结果如表1~4以及如图4所示：

Table 1. Herd effect of different stocks (Week 1)

表1. 不同股票羊群效应情况(第一周)

Table 2. Herd effect of different stocks (Week 2)

表2. 不同股票羊群效应情况(第二周)

Table 3. Herd effect of different stocks (Week 3)

表3. 不同股票羊群效应情况(第三周)

Table 4. Herd effect of different stocks (Week 4)

表4. 不同股票羊群效应情况(第四周)

Figure 4. Experimental comparison of stock herd effect

图4. 股票出现羊群效应实验对比

4.3. 检测时间段出现的羊群效应实验对比

根据建模求解计算得到检测时间段出现的羊群效应实验对比表5所示：

Table 5. The herd effect in different time periods

表5. 不同时间段羊群效应情况

5. 结论

本文通过提出一种基于模糊聚类的羊群效应分析方法，以检测股票市场中有无出现羊群效应、个股的羊群效应程度以及股市不同时间段的羊群效应程度。

本文通过计算收益率一阶差分来构建具有时间序列属性的收益变化特征，分别对在同时间段不同股票收益变化特征和整体股市不同时间段变化收益特征作为样本进行模糊聚类，得到隶属度来表示股票或时间段趋向于出现羊群效应的程度。

本文将每支股票作为单个样本，采用模糊C均值聚类，以得到隶属度矩阵。接着，建立类别判断准则。判断哪一类是羊群效应，可以通过计算第一类样本隶属度与第二类样本隶属度的最大/最小差值，将出现最大/最小差值的样本与收益变化特征均值的方法来判断。

相比计算横截面标准差等传统方法再进行线性回归得到回归系数，该方法具有能够表现个股羊群效应优势；相比k-means聚类计算羊群效应，基于模糊聚类的羊群效应分析方法用隶属度能够得到更多的聚类信息。

相比用硬聚类的方法，模糊聚类的方法得到的结果具有更多的信息，更符合实际应用。但本文方法少数样本会出现羊群效应和不出现羊群效应的程度相同，即无法判断有无羊群效应的情况。对于该问题，可以通过加入已有的先验信息，用半监督模糊聚类的方法来检测羊群效应提高羊群效应检测的准确度和稳定性。

NOTES

¹https://www.gtarsc.com/#/index。

参考文献

[1]	Banerjee, A.V. (1992) A Simple Model of Herd Behavior. The Quarterly Journal of Economics, 107, 797-817. [Google Scholar] [CrossRef]
[2]	Bikhchandani, S., Hirshleifer, D. and Welch, I. (1992) A Theory of Fads, Fashion, Custom and Cultural Changes Informational Cascades. Journal of Political Economy, 100, 992-1026. [Google Scholar] [CrossRef]
[3]	Avery, C. and Zemsky, P. (1998) Multidimensional Uncertainty and Herd Behavior in Financial Markets. American Economic Review, 88, 724-748.
[4]	Graham, J.R. (1999) Herding among Investment Newsletters: Theory and Evidence. Journal of Finance, 54, 237-268. [Google Scholar] [CrossRef]
[5]	Zwiebel, J. (1995) Corporate Conservatism and Relative Compensation. Journal of Political Economy, 103, 1-25. [Google Scholar] [CrossRef]
[6]	Lakonishok, J., Shleifer, A. and Vishny, R.W. (1992) The Impact of Institutional Trading on Stock Prices. Journal of Financial Economics, 32, 23-43. [Google Scholar] [CrossRef]
[7]	Gdnblatt, M., Titman, S. and Wermers, R. (1995) Momen-tum Investment Strategies, Portfolio Performance and Herding: A Study of Mutual Fund Behavior. American Economic Review, 85, 1088-1105.
[8]	Christie, W.G. and Huang, R.D. (1995) Following the Pied Piper: Do Individual Returns Herd around the Market? Financial Analysts Journal, 51, 31-37. [Google Scholar] [CrossRef]
[9]	宋军, 吴冲锋. 基于分散度的金融市场的羊群行为研究[J]. 经济研究, 2001(11): 21-27.
[10]	张锐昕. 基于CAPM模型对中国股市羊群行为的实证研究[J]. 科教导刊, 2010(35): 64+68.
[11]	孙培源, 施东晖. 中国证券市场羊群行为实证研究[J]. 证券市场导报, 2004(8): 39-43.
[12]	Chang, E.C., Cheng, J.W. and Khorana, A. (2000) An Examination of Herd Behavior in Equity Markets: An International Perspective. Journal of Banking and Finance, 24, 1651-1679.
[13]	宋军, 吴冲锋. 中国股评家的羊群行为研究[J]. 管理科学学报, 2003(1): 68-74.
[14]	Scharfstein, David, S. and Stein, J.C. (1990) Herd Behavior and Investment. American Economic Review, 80, 465-479.
[15]	郭旭超. 基于聚类的羊群效应分析模型[D]: [硕士学位论文]. 广州: 中山大学, 2010.
[16]	蒋学雷, 陈敏, 吴国富. 中国股市的羊群效应的ARCH检验模型与实证分析[J]. 数学的实践与认识, 2003, 33(3): 56-63.
[17]	Bezdek, J.C., Ehrlich, R. and Full, W. (1984) FCM: The Fuzzy C-Means Clustering Algorithm. Computers & Geosciences, 10, 191-203. [Google Scholar] [CrossRef]
[18]	Hathaway, R.J. and Davenport, J.W. (1989) Relational Duals of the C-Means Clustering Algorithms. Pattern Recognition, 22, 205-212. [Google Scholar] [CrossRef]
[19]	Steinley, D. (2011) K-Means Clustering: A Half-Century Synthesis. British Journal of Mathematical and Statistical Psychology, 59, 1-34. [Google Scholar] [CrossRef]
[20]	Bora, D.J. and Gupta, A.K. (2014) A Comparative Study Be-tween Fuzzy Clustering Algorithm and Hard Clustering Algorithm. International Journal of Computer Trends and Technology, 10, 108-113. [Google Scholar] [CrossRef]
[21]	Pawan, K. and Deepika, S. (2010) Comparative Analysis of FCM and HCM Algorithm on Iris Data Set. International Journal of Computer Applications, 5, 33-37.

为你推荐

友情链接