模糊聚类分析法在军人体能素质综合评价中的应用

doi:10.12677/SA.2021.105092

期刊菜单

模糊聚类分析法在军人体能素质综合评价中的应用
The Application of Fuzzy Clustering Analysis in the Comprehensive Evaluation of Military Physical Quality

DOI: 10.12677/SA.2021.105092, PDF, HTML, XML, 科研立项经费支持
作者: 孙慧静, 王丽英, 杜彬彬：海军航空大学，航空基础学院数学教研室，山东烟台
关键词: 体能素质；综合评价；模糊聚类分析；Physical Fitness； Comprehensive Evaluation； Fuzzy Clustering Analysis

摘要: 为科学评估基层部队军人的体能素质，取耐力中的徒手五公里跑，速度中的百米跑，力量中的引体向上(单杆一)作为军人体能考核评价的指标，根据模糊数学中模糊聚类分析法，应用统计量确定最佳分类方式。结果表明：按照体能素质，基层连队战士可分为5类，该结果为基层部队战士体能素质的综合评价提供了理论依据。

Abstract: In order to scientifically evaluate the physical fitness of soldiers in grass-roots company, the five-kilometer run with bare hands in endurance, the 100-meter run with speed and the pull-up of strength (single pole one) are taken as the evaluation indexes of military physical fitness. According to the fuzzy clustering analysis method in fuzzy mathematics, the best classification method is determined by using statistics. The results show that the grass-roots company soldiers can be divided into five categories according to their physical qualities. The results provide a theoretical basis for the comprehensive evaluation of the physical qualities of grass-roots company soldiers.

文章引用：孙慧静, 王丽英, 杜彬彬. 模糊聚类分析法在军人体能素质综合评价中的应用[J]. 统计学与应用, 2021, 10(5): 883-891. https://doi.org/10.12677/SA.2021.105092

1. 引言

体能素质是军人综合素质的重要组成部分，是军人军事技能的基础，是评价军人综合素质的重要指标，体能素质的高低直接影响部队的整体战斗力水平的发挥和提高。在对军人体能素质的评价中，可能碰到这样的问题：当战士们的体能成绩差别较小，不容易区分类别、分类界限模糊时，如何根据现有的体能数据合理地对战士分类，客观地评价战士们的体能素质？

本文的研究目标是以某基层部队战士的体能考核评价为例，考虑战士体能的三个方面——耐力、速度、力量，应用模糊聚类分析法 [1] - [9]，解决当战士们的体能成绩差别较小时，如何根据体能素质对其进行分类的问题。这为战士们体能素质的综合评价提供理论依据和参考，使得对基层连队战士的体能素质评价更加合理、公正、客观。

2. 模糊聚类分析方法

2.1. 数据标准化 [1] [5]

设论域 $U = {x_{1}, x_{2}, \dots, x_{n}}$ 为被分类的对象，每个对象又包含m个指标，可表示为 $x_{i} = (x_{i 1}, x_{i 2}, \dots, x_{i m}), (i = 1, 2, \dots, n)$ 。于是得到原始数据矩阵为

$[\begin{matrix} x_{11} & x_{12} & \dots & x_{1 m} \\ x_{21} & x_{22} & \dots & x_{2 m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{n 1} & x_{n 2} & \dots & x_{n m} \end{matrix}]$ .

一般说来，在实际问题中，不同数据有不同的量纲。为了使有不同量纲的数也能进行比较，需要对数据进行适当的变换，从而消除量纲的影响。但即使经过变换后消除了量纲，得到的新数据也不一定都在区间 $[0, 1]$ 上。因此，需要对数据进行标准化。这里所说的数据标准化，就是要根据模糊矩阵的要求，将数据压缩到区间 $[0, 1]$ 上。

通常需要作如下两个变换步骤：

1) 平移–标准差变换

${x^{'}}_{i k} = \frac{x_{i k} - {\bar{x}}_{k}}{s_{k}} (i = 1, 2, \dots, n; k = 1, 2, \dots, m)$ ,(1)

其中 ${\bar{x}}_{k} = \frac{1}{n} \sum_{i = 1}^{n} x_{i k}, s_{k} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i k} - {\bar{x}}_{k})}^{2}}$ 。这样经过变换后，每个变量的均值为0，标准差为1，且实现了消除量纲影响的目的。但是，这样得到的 ${x^{'}}_{i k}$ 还不一定在区间 $[0, 1]$ 上。因此，转入到下一步。

2) 平移–极差变换

${x^{″}}_{i k} = \frac{{x^{'}}_{i k} - \min_{1 \leq i \leq n} {{x^{'}}_{i k}}}{\max_{1 \leq i \leq n} {{x^{'}}_{i k}} - \min_{1 \leq i \leq n} {{x^{'}}_{i k}}} (k = 1, 2, \dots, m)$ ,(2)

显然有 $0 \leq {x^{″}}_{i k} \leq 1$ ，从而实现了数据标准化的目的。

2.2. 建立模糊相似矩阵 [1] [5]

设论域 $U = {x_{1}, x_{2}, \dots, x_{n}}, x_{i} = {x_{i 1}, x_{i 2}, \dots, x_{i m}}$ ，按照传统聚类分析方法确定相似系数，并建立模糊相似矩阵， $x_{i}$ 与 $x_{j}$ 的相似程度记为 $r_{i j} = R (x_{i}, x_{j})$ 。确定 $r_{i j}$ 的方法主要包括：传统聚类分析的相似系数法、距离法以及其他方法。实际问题中具体用什么方法，我们可根据问题的性质，选取其中一个公式进行计算 $r_{i j}$ 。本文采用相似系数法中的夹角余弦法计算，其中夹角余弦法的计算公式为

$r_{i j} = \frac{\sum_{k = 1}^{m} x_{i k} \cdot x_{j k}}{\sqrt{\sum_{k = 1}^{m} x_{i k}^{2}} \cdot \sqrt{\sum_{k = 1}^{m} x_{j k}^{2}}}, i, j = 1, 2, \dots, n$ . (3)

2.3. 聚类 [1] [5]

动态聚类的求解方法有许多，最常见的是如下两大类方法：一是基于模糊等价矩阵聚类方法，二是直接聚类法。其中直接聚类法是指：在建立模糊相似矩阵之后，不去求传递闭包，也不用Boole矩阵法，而是直接从模糊相似矩阵出发，求得聚类情况。但是这种方法适用于矩阵的阶数不高的情形。当矩阵的阶数较高时，可借助计算机的强大的计算功能，使用传递闭包法分类，还是非常高效的。

2.4. 最佳阀值 $λ$ 的确定 [1] [5]

在模糊聚类分析中，对于不同的 $λ \in [0, 1]$ ，可得到不同的分类，从而形成一种动态分类情况，这对全面了解样本的分类情况是比较形象和直观的。但在许多实际问题中需要选择某个阀值 $λ$ ，确定样本的一个具体分类。这就提出了如何确定阀值 $λ$ 的问题。现在介绍下面两种方法 [3]。

1) 按照实际需要，根据动态聚类情况，调整 $λ$ 的值以得到适当的分类，而不需要事先估计样本应分成几类。当然，也可由经验丰富的专家结合具体专业知识来确定阀值 $λ$ ，从而得出在 $λ$ 水平上的等价分类。

2) 用F统计量确定 $λ$ 最佳值

设论域 $U = {x_{1}, x_{2}, \dots, x_{n}}$ 为样本空间，样本总数为n，而每个样本 $x_{i}$ 有m个特征(测验得到的m个数据)： $x_{i} = (x_{i 1}, x_{i 2}, \dots, x_{i m}), (i = 1, 2, \dots, n)$ 。于是得到原始数据矩阵。设 ${\bar{x}}_{k} = \frac{1}{n} \sum_{i = 1}^{n} x_{i k} (k = 1, 2, \dots, m)$ ，则 $\bar{x}$ 称为总体样本的中心向量。

设对应于 $λ$ 值的分类数为r，第j类的样本数为 $n_{j}$ ，第j类的样本记为 $x_{1}^{(j)}, x_{2}^{(j)}, \dots, x_{n_{j}}^{(j)}$ ，第j类的聚类中心为向量 ${\bar{x}}^{(j)} = ({\bar{x}}_{1}^{(j)}, {\bar{x}}_{2}^{(j)}, \dots, {\bar{x}}_{m}^{(j)})$ ，其中 ${\bar{x}}_{k}^{(j)}$ 为第k个特征的平均值。

${\bar{x}}_{k}^{(j)} = \frac{1}{n_{j}} \sum_{i = 1}^{n_{j}} x_{i k}^{(j)} (k = 1, 2, \dots, m)$ , (4)

作F统计量

$F = \frac{\sum_{j = 1}^{r} n_{j} {‖ {\bar{x}}^{(j)} - \bar{x} ‖}^{2} / (r - 1)}{\sum_{j = 1}^{r} \sum_{i = 1}^{n_{j}} {‖ x_{i}^{(j)} - {\bar{x}}^{(j)} ‖}^{2} / (n - r)}$ ,(5)

其中 $‖ {\bar{x}}^{(j)} - \bar{x} ‖ = \sqrt{\sum_{k = 1}^{m} {({\bar{x}}_{k}^{(j)} - {\bar{x}}_{k})}^{2}}$ 为 ${\bar{x}}^{(j)}$ 与 $\bar{x}$ 距离， $‖ x_{i}^{(j)} - {\bar{x}}^{(j)} ‖$ 为第j类中样本 $x_{i}^{(j)}$ 与中心 ${\bar{x}}^{(j)}$ 的距离，称(1.5)式为F统计量，它服从自由度为 $r - 1, n - r$ 的F分布。其中分子表征类与类之间的距离，分母表征类内样本间的距离。因此，F值越大，说明类与类之间的距离大，表明类与类之间的差异大，进而说明分类就越好。

3. 实例分析

3.1. 数据标准化

在体能素质中，耐力、速度、力量是体能素质的基础。随机取基层部队战士的一次体能考核成绩，百米跑单位统一用“秒”，5000米跑单位统一用“分”，引体向上统一用“个”。论域 $U = {x_{1}, x_{2}, \dots, x_{60}}$ 表示60名战士的体能成绩样本，每个样本用三个指标来评价，即 $x_{i} = (x_{i 1}, x_{i 2}, x_{i 3})$ ， $(i = 1, 2, \dots, 60)$ 。原始数据如表1示。

Table 1. Original data table

表1. 原始数据表

依据模糊聚类分析法中数据标准化的方法和公式：平移标准差变换和平移极差变换，应用Matab软件编程处理表1初始数据 [6]。

平移标准差变换，应用公式(1)得平均值向量

$\vec{x} = (21.4542, 13.6130, 12.0500)$ ,

方差向量

$\vec{s} = (0.3903, 0.5394, 1.6576)$ .

经过变换后得到一个新的数据矩阵，新矩阵中的值出现负数，得到的数据不全在区间 $[0, 1]$ 上，所以继续进行平移–极差变换，应用公式(2)得最小值向量：

$\min_{1 \leq i \leq 60} {{x^{'}}_{i k}} = (- 2.9059, - 2.0636, - 2.4434)$ ,

最大值向量：

$\max_{1 \leq i \leq 60} {{x^{'}}_{i k}} = (1.8341, 2.9795, 3.5896)$ ,

$\max_{1 \leq i \leq 60} {{x^{'}}_{i k}} - \min_{1 \leq i \leq 60} {{x^{'}}_{i k}} = (4.7399, 5.0431, 6.0330)$ , $k = 1, 2, 3$ .

最后得到样本标准化矩阵A如下：

A = [0.3125 0.4000 0.6811

0.1949 0.4000 0.5405

0.4228 0.7000 0.7568

0.2022 0.5000 0.4324

0.31990.2000 0.9189

0.2463 0.4000 0.3027

0.2279 0.4000 0.5730

0.2390 0.4000 0.9892

0.4118 0.3000 0.7568

0.5331 0.4000 0.3514

1.0000 0.1000 0.9189

0.6397 0.7000 0.5405

0.3713 0.4000 0.5405

0.5846 0.3000 0.3784

0.1103 0.7000 0.3189

0.0000 0.6000 0.3027

0.6250 0.4000 0.8649

0.4779 0.0000 0.5730

0.5735 0.4000 0.6811

0.3309 0.4000 0.5730

0.2206 0.4000 0.5730

0.2279 0.3000 0.5568

0.5882 0.2000 0.4486

0.4044 0.4000 0.5568

0.2757 0.5000 0.8541

0.2904 0.4000 0.8541

0.6397 0.4000 0.5730

0.3382 0.4000 0.7568

0.5147 0.4000 0.7027

0.7353 0.3000 0.6919

0.2206 0.2000 0.9892

0.4779 0.4000 0.3135

0.2206 0.4000 0.7892

0.4779 0.0000 0.2757

0.2721 0.4000 0.7568

0.5184 0.4000 0.3514

0.2941 0.4000 0.3405

0.5515 0.4000 0.0000

0.6324 0.4000 0.6757

0.2610 0.4000 0.6811

0.4191 0.4000 0.6811

0.0515 0.4000 0.6973

0.6618 0.0000 0.3784

0.5147 0.4000 0.6811

0.1728 0.5000 0.6811

0.2721 0.4000 0.6811

0.5809 0.4000 0.1027

0.7353 0.4000 0.6811

0.1875 0.4000 0.7622

0.4816 0.8000 0.7622

0.1471 0.5000 0.6811

0.1912 0.4000 0.5405

0.5184 0.5000 0.5405

0.3971 0.6000 0.7297

0.6213 0.4000 1.0000

0.7721 0.4000 0.8649

0.6618 0.4000 0.5730

0.3713 0.4000 0.5730

0.4779 0.4000 0.7568

0.3309 1.0000 0.6811]。

3.2. 标定(建立模糊相似矩阵)

论域 $U = {x_{1}, x_{2}, \dots, x_{60}}$ ， $x_{i} = {x_{i 1}, x_{i 2}, x_{i 3}}$ 。要得到模糊相似矩阵，先要求得矩阵中的相似程度 $r_{i j}$ 。依据夹角余弦法的公式(3)可知

$\sqrt{\sum_{k = 1}^{3} x_{i k}^{2}} = \sqrt{x_{i 1}^{2} + x_{i 2}^{2} + x_{i 3}^{2}}$ ,

$\sum_{k = 1}^{3} x_{i k} x_{j k} = x_{i 1} x_{j 1} + x_{i 2} x_{j 2} + x_{i 3} x_{j 3}$ ,

$r_{i j} = \frac{\sum_{k = 1}^{3} x_{i k} x_{j k}}{\sqrt{\sum_{k = 1}^{3} x_{i k}^{2}} \sqrt{\sum_{k = 1}^{3} x_{j k}^{2}}} = \frac{x_{i 1} x_{j 1} + x_{i 2} x_{j 2} + x_{i 3} x_{j 3}}{\sqrt{x_{i 1}^{2} + x_{i 2}^{2} + x_{i 3}^{2}} \sqrt{x_{j 1}^{2} + x_{j 2}^{2} + x_{j 3}^{2}}}$ , $i, j = 1, 2, \dots, 60$ ,

易知 $r_{i i} = 1$ 。

当 $i \neq j$ 时，由于模糊相似矩阵具有对称性的性质，我们只需计算一个上三角矩阵。 $x_{i}$ 与 $x_{j}$ 的相似程度计算举例说明如下：

取 $i = 2, j = 4$ ，

$\sqrt{\sum_{k = 1}^{3} x_{2 k}^{2}} = \sqrt{x_{21}^{2} + x_{22}^{2} + x_{23}^{2}} = \sqrt{{(0.5045)}^{2} + {(0.1949)}^{2} + {(0.4000)}^{2}} = 0.7001$ ,

$\sqrt{\sum_{k = 1}^{3} x_{4 k}^{2}} = \sqrt{x_{41}^{2} + x_{42}^{2} + x_{43}^{2}} = \sqrt{{(0.4324)}^{2} + {(0.2022)}^{2} + {(0.5000)}^{2}} = 0.6913$ ,

$\begin{matrix} \sum_{k = 1}^{3} x_{2 k} x_{4 k} = x_{21} x_{41} + x_{22} x_{42} + x_{23} x_{43} \\ = (0.5045 \times 0.4324) + (0.1949 \times 0.2002) + (0.4000 \times 0.5000) \\ = 0.4731 \end{matrix}$ ,

$r_{24} = \frac{\sum_{k = 1}^{3} x_{2 k} x_{4 k}}{\sqrt{\sum_{k = 1}^{3} x_{2 k}^{2}} \sqrt{\sum_{k = 1}^{3} x_{4 k}^{2}}} = \frac{0.4731}{0.7001 \times 0.6913} = 0.9775$ ,

同样， $r_{42} = 0.9775$ 。其他 $r_{i j} = R (x_{i}, x_{j})$ 同理计算可得。

通过计算 $x_{i}$ 与 $x_{j}$ 的相似程度 $r_{i j} = R (x_{i}, x_{j})$ ，得到一个60 × 60的矩阵，该矩阵就是我们要得到的模糊相似矩阵R。具体计算过程用Matlab软件计算得到模糊相似矩阵R。

3.3. 聚类

为方便起见，聚类的过程分为三步进行：1) 求传递闭包(模糊等价矩阵 $R^{*}$ )；2) 求阀值 $λ$ ；3) 聚类。

根据所得到的模糊相似矩阵R，运用传递闭包法来求得模糊等价矩阵(传递闭包) $t (R)$ 。用平方法来求传递闭包 $t (R)$ 。经过3次迭代计算：

$R^{2} = R \circ R$ , $R^{4} = R^{2} \circ R^{2}$ , $R^{8} = R^{4} \circ R^{4}$ ,

若 $R^{8} = R^{4} \circ R^{4} = R^{4}$ ，则得到传递闭包 $t (R) = R^{4}$ (模糊等价矩阵 $R^{*}$ )。

经过3次迭代得到模糊等价矩阵 $t (R)$ 。考虑到问题的实际情况：数据不需要特别精确，对模糊等价矩阵中的元素经过四舍五入保留两位有效数字。整理后，求阀值 $λ$ 。

先对模糊等价矩阵 $R^{*}$ 中的数据由大到小排序，得到一个3600 × 1的列向量H，然后从第一个元素开始，分别与其他元素比较，当出现数据不等时，建立一个新的向量 $\vec{l}$ ，保存该数据到 $\vec{l}$ 中。这样一直进行下去，直至最后一个元素比较完。最后得到一个向量 $\vec{l}$ ，其全部元素就是我们需要的阀值 $λ$ 。通过数值计算得

$\vec{l} = (0.94, 0.97, 0.98, 0.99, 1.00)$ ,

即，阀值 $λ$ 的值为 $0.94, 0.97, 0.98, 0.99, 1.00$ 。

根据阀值 $λ$ 的值进行聚类。将阀值 $λ$ 由小到大取值，这里阀值依次为 $λ = 0.94, 0.97, 0.98, 0.99, 1.00$ ，进而求得模糊等价矩阵的 $λ$ 截矩阵 $R_{λ}$ (一个 $λ$ 的值对应一个截矩阵 $R_{λ}$ )，然后进行聚类．由模糊等价矩阵的对称性易知，截矩阵 $R_{λ}$ 也是对称的，所以，在编程过程中取截矩阵 $R_{λ}$ 的上三角形，以减少计算量，加快计算速度。

当取定阀值 $λ$ 后，对模糊等价矩阵 $R^{*}$ 中大于等于 $λ$ 值的元素赋1，小于 $λ$ 值的元素赋0，这样得到模糊等价矩阵的 $λ$ 截矩阵 $R_{λ}$ 。再从截矩阵 $R_{λ}$ 第一行开始，同一行中同时为1的元素为一类，依次进行，直至最后一行。最后得到在该阀值 $λ$ 下的分类情况。

取 $λ = 0.94$ ，分为1类： ${x_{1}, x_{2}, \dots, x_{60}}$ ；

取 $λ = 0.97$ ，分为2类： ${x_{1}, x_{2}, \dots, x_{i}, \dots, x_{60}} (i \neq 38,47)$ ， ${x_{38}, x_{47}}$ ；

取 $λ = 0.98$ ，分为5类： ${x_{1}, x_{2}, \dots, x_{i}, \dots, x_{60}} (i \neq 11, 15, 16, 18, 34, 38,43,47)$ ， ${x_{38}, x_{47}}$ ， ${x_{11}, x_{18}}$ ， ${x_{15}, x_{16}}$ ， ${x_{34}, x_{43}}$ ；

取 $λ = 0.99$ ，分为10类： ${x_{5}, x_{31}}$ ， ${x_{11}}$ ， ${x_{42}}$ ， ${x_{15}}$ ， ${x_{16}}$ ， ${x_{34}, x_{43}}$ ， ${x_{47}}$ ， ${x_{38}}$ ， ${x_{18}}$ ， ${x_{1}, x_{2}, \dots, x_{i}, \dots, x_{60}} (i \neq 5, 11, 15, 16, 18, 31, 34, 38,42,43,47)$ ；

取 $λ = 1.00$ ，分为60类： ${x_{1}}$ ， ${x_{2}}$ ， $\dots$ ， ${x_{i}}$ ， $\dots$ ， ${x_{60}}$ 。

3.4. 最佳阈值的确定

采用F统计量的方法，应用公式(4)、(5)得每种分类情况下的F的值：

当 $λ = 0.94$ ， $r = 1$ ， $F = 0$ ；

当 $λ = 0.97$ ， $r = 2$ ， $F = 0.0139$ ；

当 $λ = 0.98$ ， $r = 5$ ， $F = 0.1798$ ；

当 $λ = 0.99$ ， $r = 10$ ， $F = 0.1091$ ；

当 $λ = 1.00$ ， $r = 60$ ， $F = 0$ 。

由此可见当 $λ = 0.98$ 时分成5类，此时F的值最大。所以，取 $λ = 0.98$ 为最佳阀值，军人按体能分为5类，即60名军人按体能素质可以最佳分为5类。

4. 结论

本文研究基层部队军人体能素质的综合评价问题，采用模糊聚类分析法，解决了当战士们的体能差别较小、分类困难的问题，最终得到按照体能战士们的合理分类。其方法可推广到其他方面的综合评价，甚至军人综合素质的评价。

致谢

感谢海军航空大学科研自主立项项目(2021.01~2021.12)——《复杂网络模型的动态分析及其应用》(No. I32001011)的支持。

参考文献

[1]	谢季坚, 刘承平. 模糊数学方法及应用[M]. 武汉: 华中科技大学出版社, 2006: 58-118.
[2]	张英, 冯艳芳. 基于模糊层次分析法的大学生综合素质评价[J]. 武汉理工大学学报(社会科学版), 2007, 20(15): 707-711.
[3]	甘应爱, 田丰, 胡运权, 等. 运筹学[M]. 北京: 清华大学出版社, 2005: 455-460.
[4]	司守奎. 数学建模算法与程序[M]. 烟台: 海军航空工程学院, 2007: 167-174.
[5]	何晓群. 多元统计分析[M]. 第5版. 北京: 中国人民大学出版社, 2019: 36-81.
[6]	吕振伟, 刘坤. 模糊聚类分析方法及实例应用[J]. 数学的实践与认识, 2019, 49(6): 288-291.
[7]	郭泳亨, 李文生, 夏良华, 等. 基于模糊聚类分析的战场目标分类研究[J]. 河北工业科技, 2010, 27(5): 323-325，339.
[8]	赵晓燕. 基于模糊聚类分析法的大学生综合素质评价方法[J]. 兰州工业学院学报, 2012, 19(2): 50-53, 57.
[9]	赵宇, 赵义武, 穆圣华, 等. 模糊聚类分析在成绩管理系统中的应用[J]. 信息与电脑(理论版), 2016(4): 81-82.

为你推荐

友情链接