基于链分解的多标签分类属性约简

doi:10.12677/HJDM.2020.104025

期刊菜单

基于链分解的多标签分类属性约简
Attribute Reduction for Multi-Label Classification Based on Chain Decomposition

DOI: 10.12677/HJDM.2020.104025, PDF, HTML, XML,
作者: 张莹：渤海大学数学系，辽宁锦州
关键词: 多标签分类；属性约简；粗糙集；链分解；Attribute Reduction； Rough Set； Multi-Label Classification； Chain Decomposition

摘要: 本文提出了基于链分解的多标签属性约简方法。通过考虑标签之间的相关性，将标签进行排序，根据排序方法，多标签问题被分解成单标签链的形式，对于链中每一个子问题通过粗糙集方法重新定义下近似、正域、依赖度，并进行属性约简。实验结果表明，该方法能在不降低分类精度的情况下去除大部分冗余属性。

Abstract: In this paper, a new multi-label attribute reduction algorithm based on the chain decomposition is proposed. Considering the correlation between the labels, the labels are sorted. According to the sorting method, the multi-label problem is decomposed into a single-label problem chain. For each sub-problem, the lower approximation, the positive region and the dependency are redefined by the rough set method, and the attributes are reduced. Experimental results show that the algo-rithm can remove most of the redundant attributes without reducing the classification accuracy.

文章引用：张莹. 基于链分解的多标签分类属性约简[J]. 数据挖掘, 2020, 10(4): 240-246. https://doi.org/10.12677/HJDM.2020.104025

1. 引言

在传统监督学习中一个样本只与一个标签相关，这类问题被称为单标签问题。但是在现实生活中往往并非如此，一个样本也可以与多个标签相关联，比如一篇文章可能存在多个关键词，一幅图像可以拥有多个主题，我们把这类问题称为多标签问题。与单标签分类不同，多标签分类问题会更加复杂。

问题转换是处理多标签问题的方法之一。其主要思想是将多标签问题转化为一个或多个单标签问题进行处理。BR (binary relevance)是最常见的问题转换方法，实现方法简单，容易理解。但在考虑标签之间的相关性时，最终构建模型的泛化能力会比较弱。而Read等 [1] 在2009年提出的分类器链算法，在一定程度上克服了这个问题。分类器链同样是将多标签问题转化为单标签问题 [2]，但与传统二分类方法不同的是，分类器链算法把标签当作额外信息添加到属性集中，即每个已知标签都可以看作是属性空间的子集。实际上就是样本属性在不断的扩充。在这一过程中考虑了标签之间的相关性，特别是在训练样本很少的情况，缺少有用的信息时，考虑标签之间的相关性就显得尤为重要。

粗糙集是一种新的软计算方法，近年来受到越来越多的关注。它的有效性已经在许多科学和工程领域的成功应用中得到了证明。最早由波兰科学家Pawlak在1982年 [3] 提出。此后，粗糙集理论逐渐应用于单标签数据的属性约简中 [4]，并取得了令人满意的效果。近年来，粗糙集被广泛地应用于多标签数据属性约简中 [5] [6] [7] [8]。然而，在约简过程中考虑标签之间的相关性，降低计算复杂度是需要解决的主要问题。本文主要根据多标签链分解的特点，将其与粗糙集方法相结合，在考虑标签间相关性的基础上进行属性约简。

本文剩余部分结构如下：在第二节中，提出了两种标签排序方法，并将多标签分解成链的形式。在第三节中，对于每个分解之后的子问题给出了新的相似类、正域、依赖度的定义，并设计了一种新的属性约简算法。在第四节中，在给定的五个数据集上进行了数值实验，并对于实验结果进行了分析。在第五节中，对本文所得的结论和实验结果进行总结。

2. 多标签链分解

基于链分解的多标签问题本质上是将多标签问题转化为链的形式。在分解过程中，已知标签依次作为额外的属性为样本提供分类信息，所以标签的排序非常重要。本节主要提出两种标签排序方法，建立了链式分解。在此之前给出多标签分类问题的基本框架。

令 $X = {x_{1}, x_{2}, x_{3}, \dots, x_{n}}$ 为样本集， $Y = {{y^{'}}_{1}, {y^{'}}_{2}, {y^{'}}_{3}, \dots, {y^{'}}_{m}}$ 为标签集， $A = {a_{1}, a_{2}, a_{3}, \dots, a_{d}}$ 代表属性集合。我们可以将多标签数据集表示为 $(X, A, Y)$ 。对每一个属性 $a \in A$ ，样本 $x_{i}$ 在属性a上的取值记为 $a (x_{i})$ 。对每个标签 ${y^{'}}_{j} \in Y$ ，样本 $x_{i}$ 的标签值为 ${y^{'}}_{j} (x_{i})$ ，如果 $x_{i}$ 具有标签 ${y^{'}}_{j}$ ， ${y^{'}}_{j} (x_{i}) = 1$ 否则为0。下面我们给出两种标签排序的方法。

方法一：邻域法

该方法主要是利用邻域的概念，找出每个样本邻域内各个标签的出现次数，对于所有样本邻域内同一类标签出现次数相加并求其平均值，根据平均值确定标签排列顺序。接下来我们将给出邻域法的相关定义。

给定标签数据集 $(X, A, Y)$ ，对于任意 $ε > 0$ ，样本 $x_{i}$ 的相似类定义如下：

${[x_{i}]}_{A}^{ε} = {x \in X : | a (x_{i}) - a (x) | \leq ε, a \in A}$

对于任意 ${y^{'}}_{j} \in Y$ ，令

$T_{j} (x_{i}) = \sum_{x \in {[x_{i}]}_{A}^{ε}} {y^{'}}_{j} (x), j = 1, 2, \dots, m, i = 1, 2, \dots, n .$

其中x是 $x_{i}$ 邻域内的任意一个样本， $T_{j} (x_{i})$ 表示样本 $x_{i}$ 邻域内标签 ${y^{'}}_{j}$ 出现次数。基于以上公式，将所有样本的邻域内标签 ${y^{'}}_{j}$ 出现的次数相加并求其平均值：

$r a n k ({y^{'}}_{j}) = \frac{\sum_{i = 1}^{n} T_{j} (x_{i})}{n}$

根据平均数的大小，按照降序将标签进行排列。不妨设排序后的标签列为 $(y_{1}, y_{2}, \dots, y_{m})$ 。

方法二：计数法

计数法就是找到所有与标签 ${y^{'}}_{j}$ 相关的样本，根据相关样本集基数的大小进行标签排序。接下来我们将给出相关定义。

给定标签数据集 $(X, A, Y)$ ，令

$X_{j} = {x_{i} | {y^{'}}_{j} (x_{i}) = 1, 1 \leq i \leq n}, j = 1, 2, \dots, m .$

这里， $X_{j} \subset X$ 是与标签 ${y^{'}}_{j}$ 相关的样本集，根据 $X_{j}$ 基数将标签降序排列，排序后的标签列仍然记为 $(y_{1}, y_{2}, \dots, y_{m})$ 。

根据以上两种标签排序方法，对m个标签进行排序。将标签依次视为新的属性加入到原属性集中，令

$A_{1} = A \cup {y_{1}}$

对于序列中的第j个标签新的属性集可以表示为：

$A_{j} = A_{j - 1} \cup {y_{j}}, j = 2, 3, \dots, m .$

则有 $A \subset A_{1} \subset A_{2} \subset \dots \subset A_{j - 1} \subset A_{m}$ 。

以上是将多标签问题分解为链式子问题的过程，其主要优势是考虑了标签之间的相关性，标签被当做属性添加到原始属性集A中用来为样本提供有效信息。此时，子问题的数据集记为 $(X, A_{j}, y_{j}), j = 1, 2, \dots, m$ 。

3. 属性约简

在本节中根据以上多标签链分解的特点，对于每个子问题将重新定义下近似、正域并提出新的约简方法，在此之前我们将先给出标签信息集的定义。对于任意 $y_{j} \in Y$ ，标签信息集定义如下：

$E_{j} = {x \in X : y_{j} (x) = 1}, j = 1, 2, \dots, m .$

由所有标签信息集组成的集合族可以表示为：

$E = {E_{j} | j = 1, 2, \dots, m} .$

对于任意属性子集 $B \subset A$ ，根据属性集 $A_{j}$ 的特点，扩充后的属性集可以表示成如下形式：

$B_{1} = B \cup {y_{1}}$

$B_{j} = B_{j - 1} \cup {y_{j}}, j = 1, 2, \dots, m .$

定义2.1：对于多标签数据集 $(X, A_{j}, Y)$ ，样本 $x_{i}$ 的相似类可以被重新定义为。

${[x_{i}]}_{B_{j}}^{ε} = {x \in X : | a (x_{i}) - a (x) | \leq ε, | y_{j} (x_{i}) - y_{j} (x) | \leq ε, a, y_{j} \in B_{j}} .$

定义2.2：给定多标签数据集 $(X, A_{j}, Y)$ ，对于属性子集 $B_{j} \subset A_{j}$ ，关于标签信息集 $E_{j}$ 的下近似定义如下：

${\underline{R}}_{B_{j}}^{ε} (E_{j}) = {x_{i} \in X : {[x_{i}]}_{B_{j}}^{ε} \subseteq E_{j}} .$

定义2.3：给定原始多标签数据集 $(X, A, Y)$ ，对于属性子集 $B \subset A$ ，其正域定义为：

$P O S_{B}^{ε} (E) = \underset{E_{j} \in E}{\cup} {\underline{R}}_{B_{j}}^{ε} (E_{j}) .$

引理2.1：对于任意的属性子集 $B \subset A, B^{'} \subset A$ ，如果 $B^{'} \subset B$ ，则有

$P O S_{B^{'}}^{ε} (E) \subseteq P O S_{B}^{ε} ( E )$

证明：对于任意 $x \in P O S_{B^{'}}^{ε} (E)$ 从定义2.3可知 $x \in \underset{E_{j} \in E}{\cup} {\underline{R}}_{B_{1}}^{ε} (E_{j})$ 。故存在 $E_{j} \in E$ ，使得 $x \in {\underline{R}}_{B^{'}}^{ε} (E_{j})$ 根据下近似定义 ${[x]}_{B^{'}}^{ε} \subseteq E_{j}$ ，由 $B^{'} \subset B$ 可以得到 ${[x]}_{B}^{ε} \subseteq {[x]}_{B^{'}}^{ε} \subseteq E_{j}$ ，因此 $x \in {\underline{R}}_{B}^{ε} (E_{j})$ ，则有 $x \in \underset{E_{j} \in E}{\cup} {\underline{R}}_{B}^{ε} (E_{j})$ ，即 $x \in P O S_{B}^{ε} (E)$ ，所以 $P O S_{B^{'}}^{ε} (E) \subseteq P O S_{B}^{ε} (E)$ 成立。

定义2.4：对于多标签数据 $(X, A, Y)$ ，当且仅当 $B \subseteq A$ 满足以下条件

1) $P O S_{B}^{ε} (E) = P O S_{A}^{ε} (E)$ ，

2) $P O S_{B^{'}}^{ε} (E) \neq P O S_{A}^{ε} (E)$ 其中 $B^{'} \subset B$ ，

则称集合B是多标签数据集的链式正域约简。

接下来，我们将介绍链式依赖性约简。在此之前，将依赖函数定义为：

$γ_{B}^{ε} (E) = \frac{1}{m} \sum_{j = 1}^{m} \frac{| {\underline{R}}_{B}^{ε} (E_{j}) |}{| X |}$

其中 $| \cdot |$ 表示相应集合的基数。由引理2.1可以直接得到依赖度的单调性引理。

引理2.2：对于任意的 $B^{'} \subset B \subset A$ ，有

$γ_{B^{'}}^{ε} (E) \leq γ_{B}^{ε} ( E )$

定义2.4：对于多标签数据 $(X, A, Y)$ ，对于任意的 $B^{'} \subset B$ 如果属性子集 $B \subseteq A$ 满足以下条件：

1) $γ_{B}^{ε} (E) = γ_{A}^{ε} (E)$ ，

2) 对于任意的 $B^{'} \subset B$ ， $γ_{B^{'}}^{ε} (E) \neq γ_{A}^{ε} (E)$ ，

则称集合B是多标签数据集的链式依赖度约简。

在样本空间中，每个样本包含多个属性，而且每个属性的重要度不同。接下来，我们将使用上面定义的依赖函数来评估每个属性的重要性。

定义2.5：给定多标签数据 $(X, A, Y)$ ，令属性子集 $B \subseteq A$ ，则属性 $a_{i} \in B$ 关于属性子集B的重要性度定义为：

$S i g_{i n} (a_{i}, B) = γ_{B}^{ε} (E) - γ_{(B - a_{i})}^{ε} (E) .$

这里我们使用重要性的概念来给出算法的伪代码。

参数 $φ$ 用来构造终止准则，当待选属性的重要度小于 $φ$ 时，算法停止运行并输出约简属性。

第2步到第6步是计算属性集B中各属性的重要度，根据定义2.5，将值最大的属性添加到集合Red。第7步到第11步，判断算法的终止条件，当待选属性的重要度小于 $φ$ 时输出约简，否则返回第2步。

4. 实验结果

为了评估本文约简算法的性能，选择5个多标签数据集。在每一个数据集上与其他3种算法进行对比，如表1，其中PRR代表正域约简、MLFRS代表多标签模糊粗糙集属性约简 [9]、NLDR代表邻域标签依赖度约简 [10]、CDDR是本文提出的链式依赖度约简，将不同算法的约简数据输入到分类器中。为了比较约简效果，对每个数据集采用统一的约简比，即不同算法约简的数据包含相同数量的属性。同时，计算未约简数据的度量作为参考。根据样本个数将数据集随机分成10等份，每部分80%作为训练集，20%作为测试集，取10次独立实验的平均值作为实验的最终结果。

Table 1. Multi-label data sets

表1. 多标签数据集

Hamming Loss表示测试样本中被误分类的标签在样本所有标签中占的比例。值越小分类能力越强。显然，评价指标与数据集中原始标签的数量密切相关，当数据集中标签数量增加时，其值可能会增加。因此，对于不同的数据集，它是不可比较的。表2的第2列给出了原始数据的Hamming Loss值。第3至第6列中分别是五种算法的简化数据值。从表中可以看出，该算法在数据集CAL500、Yeast、Genbase上的性能明显优于其他算法。而在数据集Medical上与最优算法也仅相差0.004。

Table 2. Hamming loss

表2. 汉明损失

Table 3. Coverage

表3. 覆盖率

Coverage用于考察在样本的类别标签排序序列中，覆盖所有相关标签所需要的搜索深度情况，该指标取值越小性能越优。表3对于Coverage在给定的5个数据集中取得较好的效果，特别是在数据集Yeast上算法CDDR显示出较大的优势，同时在其他2个数据上CDDR的性能与最优算法性能也是非常接近的，没有太多差异。

根据表2、表3可以看出，CDDR与其他多标签属性约简算法相比具有很强的竞争力，其性能优势更明显地验证了基于CDDR的属性约简的有效性。

5. 总结

本文主要介绍了一种新的基于链分解的多标签约简方法。首先针对不同标签所提供信息的重要程度不同，给出了两种标签排序方法固定标签序列以避免错误信息的传递。其次根据固定的序列将多标签问题分解成链的形式，将分解的链与模糊方法相结合，对于每个子问题重新给出定义。最后在不影响精度的基础上，除去冗余属性进行约简。由实验范围广泛的数据集表明，我们的方法具有高度可比性。

值得注意的是，约简本身是一个不连续优化问题，很多算法不能应用。而CDDR算法又只适用于小型数据集，存在计算复杂度高的问题。对于标签之间的关系本文主要从标签出现次数上进行考虑其相关性，但是标签之间的固有联系是一个比较复杂的问题。未来，我们将继续优化模型，寻求更好的排序方法。同时将更深入地研究如何解决标签间相关性问题。

参考文献

[1]	Read, J., Pfahringer, B., Holmes, G. and Frank, E. (2009) Classifier Chains for Multi-Label Classification. In: Buntine, W., Grobelnik, M. and Shawe-Taylor, J., Eds., Lecture Notes in Artificial Intelligence 5782, Springer, Berlin, 254-269. [Google Scholar] [CrossRef]
[2]	Read, J., Pfahringer, B., Holmes, G. and Frank, E. (2011) Classifier Chains for Multi-Label Classification. Machine. Learning, 85, 333-359. [Google Scholar] [CrossRef]
[3]	Pawlak, Z. (2011) Rough Sets. International Journal of Computer and Information Sciences, 11, 34l-356. [Google Scholar] [CrossRef]
[4]	Hu, Q.H., Yu, D.R., Liu, J.F. and Wu, C. (2008) Neighborhood Rough Set Based Heterogeneous Feature Subset Selection. Information Sciences, 178, 3577-3594. [Google Scholar] [CrossRef]
[5]	Li, H., Li, D., Zhai, Y., Wang, S. and Zhang, J. (2016) A Novel At-tribute Reduction Approach for Multi-Label Data Based on Rough Set Theory. Information Sciences, 367-368, 827-847. [Google Scholar] [CrossRef]
[6]	Lin, Y., Li, Y., Wang, C. and Chen, J. (2018) Attribute Reduction for Multi-Label Learning with Fuzzy Rough Set. Knowledge-Based Systems, 152, 51-61. [Google Scholar] [CrossRef]
[7]	Liu, J., Lin, Y., Li, Y., Weng, W. and Wu, S. (2018) Online Multi-Label Streaming Feature Selection Based on Neighborhood Rough Set. Pattern Recognition, 84, 273-287. [Google Scholar] [CrossRef]
[8]	Lin, Y., Hua, Q., Liu, J., Chen, J. and Duan, J. (2016) Mul-ti-Label Feature Selection Based on Neighborhood Mutual Information. Applied Soft Computing, 38, 244-256. [Google Scholar] [CrossRef]
[9]	Lin, Y., Li, Y., Wang, C. and Chen, J. (2018) Attribute Reduction for Multi-Label Learning with Fuzzy Rough Set. Knowledge-Based Systems, 152, 51-61. [Google Scholar] [CrossRef]
[10]	Fan, X., Chen, Q., Qiao, Z., Wang, C. and Ten, M. (2020) At-tribute Reduction for Multi-Label Classification Based on Labels of Positive Region. Soft Computing, 24, 14039-14049. [Google Scholar] [CrossRef]

为你推荐

友情链接