1. 引言
概念源于形式概念分析,由Whille在1982年提出。概念格是一种形式概念的有序的有层次结构,是由对象集和属性集组成的一个二元关系。每一个形式概念都是一个有序对,它由两部分组成:外延和内涵。作为一个有效的数据分析和知识处理工具,概念格应用于各种领域,如数据挖掘、信息检索、软件工程 [1] [2] [3] [4] [5] 等。对于概念格的大多数研究主要集中在这些方面:对概念格结构的理论的探索 [6] [7],属性约简 [2],规则提取 [6],和粗糙集其他理论间的联系等 [8] [9] [10]。虽然粗糙集理论和形式背景分析理论不同,但它们在最终目标和方法上有许多共同之处。直觉模糊 [11] [12] 理论也是一个重要的用来处理不精确信息的数学方法。直觉模糊集作为Zadeh模糊集 [13] 的拓展,充分考虑了隶属度和非隶属度,从正反两个方面刻画了对象与属性的关系,将模糊信息处理的更加充分。最近,直觉模糊集理论已成功地应用于决策分析和模式识别 [14] [15] [16]。为了满足知识处理系统的需求,很有必要将直觉模糊集理论和形式概念分析理论结合起来。
本文着重考虑借助直觉模糊集概念格属性约简来对新型病毒做一个分类研究。直觉模糊概念格属性约简是基于直觉模糊集形式背景,计算满足相同的概念外延及其层次结构的最小属性集。约简使得隐蔽的知识更容易被发现,使数据表示简单,同时扩展了概念格的理论。本文旨在将直觉模糊集引入到形式概念分析中,利用形式概念分析直觉模糊集之间的隐含关系,建立了相关的概念格理论和方法,并将其应用于新型病毒的分类研究。
本文主要结构如下:第二节回顾了形式概念分析的基本定义,讨论了直觉模糊概念格的相关理论。第三节,研究了相关的概念格属性约简的定义。最后,应用上述相关理论对目前比较热门的几种新型病毒的分类方法做了比较全面的分析和探讨。
2. 基础知识
定义2.1 [7] 一个三元
称为形势背景,其中
为对象集,
为一个对象;
称为属性集,
为一个属性;且
是U和A的一个二元关系。
对于形式背景
,如果
即
,我们就称对象x具有属性a,或者说属性a从属于对象x。定义一对算子
,
。
事实上,
表示X中所有对象共同具有的属性集合,
表示中所有共同具有B中所有属性的对象集合。同时,
的补集和
的补集被定义为
和
其中
和
。
性质2.1. [7] 对于形式背景
,
,
,我们可以得到以下基本性质:
(1)
。
(2)
。
(3)
。
(4)
。
(5)
。
(6)
。
定义2.2. [7] 形式背景
。一个二元组
,如果满足
和
其中
,则称该二元组为形式概念(简称概念),进一步X称为概念
的外延,B称为概念
的内涵。
通过上述讨论可知,
和
都是概念,用
表示形式背景
的全体概念,记作
。
概念
和
满足
,则
叫做
的亚概念,
叫做
的超概念。
表示
且
。如果
且不存在
使得
,这时我们称
是
的子概念,
叫做
的父概念。
对于形式背景
的
和
,我们可以轻易地得出
和
都是概念。因此,如果
,
,从而
是格,并且是完备格。
定义2.3. [11] 设U是一个非空有限集合。其中U上的一个直觉模糊集
有以下形式:
,其中
且
,
和
分别叫做对象
的隶属度和非隶属度。同时对于任意
,满足
,我们用
表示所有定义在全域上的直觉模糊集。
定义2.4. [12] 设
。对于任意
,
,
。
如果
和
,我们就称
和
等价,表示为
。全集和空集都是特殊的直觉模糊集,其中
,
。
我们将
和
的交集和并集分别表示为
和
,同时,我们将
的补集记作
。
.
3. 直觉模糊环境下的概念格及其属性约简
本节主要是论述直觉模糊集和概念格相结合的相关理论方法。并通过例题对相关理论作了进一步分析,尤其对属性约简的理论进行了深入地探讨,进一步深化了对直觉模糊概念格的理论理解,为应用该方法解决实际问题奠定了理论基础。
定义3.1. [17] 一个三元组
称为形式背景,如果
是一个对象集,
为一个对象;
是一个属性集,
为一个属性;且
是
一个直觉模糊集,其中
,
和
。
的补集表示
。
我们规定
,
。
假设
,得出
在形式背景
下,对于
,
和
,其中
,
。
一对算子定义为:
,
其中
;我们规定
。
,
其中
。
表示
。
,我们用
和
分别代替
和
,且对于
有以下表示形式:
.
类似经典形式背景,假设
是一个形式背景,
,
,则有以下基本性质成立。
性质3.1. [17] 设
为直觉模糊形式背景,
,
,那么可得以下性质。
(1)
。
(2)
。
(3)
。
(4)
。
(5)
。
(6)
。
证明:(1) 记
,
,则对于任意
,
,
.
因为
,即有
。综上,
,即
。
由以上定义可得,若
,那么
,否则
;所以,对
,有
,
。由
可得
。那么对于任意的
,
蕴含
。因此,若
,那么
,即
。
(2) 一方面,设
,那么
,其中
。若
,那么
。因此,
,即
。
另一方面,设
,那么记
,其中对于
,
。由上可得
,即对任意的
和
,
成立。因此,
。综上,
。
(3) 由(1)和(2)中的结论易证。
(4) 由(1)可得
,由(2)可得
;因此,
。
(5) 显然
。而且,
,
,
,
。因此,
。同理可得
。
(6) 很容易由(1)证得此结论。
下面我们通过下述例题对以上知识作一详细阐述。
例 3.1. 表1给出一个直觉模糊形式背景,其中
,
其中
,从定义的形式可以得出:
![](Images/Table_Tmp.jpg)
Table 1. Given an intuitionistic fuzzy formal context
表1. 给定一个直觉模糊形式背景
以表1中数据为例,我们对性质3.1作详细地分析:
(1) 取
,
,满足
,得:
,
,
显然成立。取
;
;满足
,且有
,
,则
成立。
(2)
,
,
;
;
;
。
(3)
,
,
;
,
,则
。
(4)
,
,
,
,
,
。
(5)
,
,
,
,
。
(6)
,
,
,
,
。
假设
是一个形式背景,
,
。二元组
是一个直觉模糊概念(简称概念)如果
且
。X和
分别叫做
的外延和内涵。
根据上述,显然
和
都是概念。
直觉模糊概念格
是指代了所有的直觉模糊集
,定义为:
。
如果
和
是直觉模糊形式背景
下的两个概念,则
和
两个都是概念。
因此,综合上述若给出:
,
.
此时直觉模糊概念格
是一个完备格。
例3.2. 在上例中,根据定义得到了直觉模糊形式背景下的所有概念。下面为了简化表示,我们用
表示概念中的对象集
。它们是
,
,
,
,
,
,
,
,
,
,
分别标记为:FC1,FC2,FC3,FC4,FC5,FC6,FC7,FC8,FC9,FC10,FC11,FC12。这样我们能得到对象集
以下同理,如下所示:
;
;
;
;
;
;
;
;
;
;
;
.
进一步,我们可以得到表1直觉模糊形式背景下的直觉模糊概念格如图1所示:
![](//html.hanspub.org/file/2-1700182x320_hanspub.png)
Figure 1. Intuitionistic fuzzy concept lattice in the context in Example 3.1
图1. 例3.1直觉模糊形式背景下的直觉模糊概念格
定义3.2. [17] 设和
,
是两个直觉模糊概念格,如果对于任意
,总存在
,使得
成立,我们称
细于
,记作
。
如果
且
,我们就称
和
等价,且记作
。我们记所有概念格的集合为:
。
中所有内涵的集合定义为:
。
在
形式背景下,任意
,我们记
,其中
是直觉模糊集
,上的二元关系,即
。显而易见,
也是一个形式背景,我们记作一个形式背景下的所有概念
。相类似地,对于
,如果
,
,否则
,并且
。
从定义3.2很容易得出,如果
,
且
,此时
和
都成立。下面我们可以通过对表1中的数据分析进一步加深理解。
对于表1,取
,
且
,此时,
,
,
成立。另外,
,
,
,
成立。
性质 3.2. [17] 设
是形式背景如果
且,
,则有以下关系成立
。
定义3.3. [17] 设
是形式背景,
。如果存在属性集D满足
,且对于任意
,
,则称D是
的约简。所有
约简的交集称为
的核心。
事实上,对于任意
,必然存在一个约简。在最坏的情况下,属性集全体即为概念格的约简,也就是说任何一个属性都是绝对必要的,每一个属性都是核心的一员。比如在例4.1中,属性集A就是约简。不过,一般来说,约简并不是唯一的,这在例3.2中可得此结论。
与经典形式概念分析一样,在直觉模糊形式背景
中,它的所有约简为
(
是一个指标集),同时可将属性分为4类:绝对必要属性 (核心属性)
;相对必要属性
;绝对不必要属性
;不必要属性
。与经典概念格理论相似,通过属性约简我们可以得到直觉模糊形式背景下的属性分类。
例 3.3. 对表1所示的形式背景
,如果把
从属性集A中除去,我们能得到一个新的形式
背景
,其中
。我们可以得到所有概念
,它们是
,
,
,
,
,
,
,
,
,
,
,
;分别记作 FC1′,FC2′,FC3′,FC4′,FC5′,FC6′,FC7′,FC8′,FC9′,FC10′,FC11′,其中
;
;
;
;
;
;
;
;
;
;
;
.
另外,我们可以得到概念格
。从图1、图2和图3,我们可以看出
和
是同构的。事实上,我们可以发现
,
,
。因此,
是
一个约简。
同样的针对表1所示的形式背景
,如果把
从属性集A中除去,我们能得到一个新的形式背景
,其中
。我们可以得到所有概念
,它们是
,
,
,
,
,
,
,
,
,
,
,
;分别记作FC1ʺ,FC2ʺ,FC3ʺ,FC4ʺ,FC5ʺ,FC6ʺ,FC7ʺ,FC8ʺ,FC9ʺ,FC10ʺ,FC11ʺ,其中
![](//html.hanspub.org/file/2-1700182x451_hanspub.png)
Figure 2. Concept lattice 1 formed by the formal context in Example 3.3
图2. 例3.3形式背景形成的概念格1
![](//html.hanspub.org/file/2-1700182x452_hanspub.png)
Figure 3. Concept lattice 2 formed by the formal context in Example 3.3
图3. 例3.3形式背景形成的概念格2
对于表1这个例子而言,我们的约简不唯一,存在
和
两种且仅有两种约简。通过上述约简过程可得,
为绝对必要属性,即核心属性;
为相对必要属性。相应地,我们从下面例4.2可以得到,核心是约简等价于约简唯一。
由定义3.1,很容易得知
,
,说明
和
更细于
。
定义.3.4 [17] 设
为形式背景,同时
,
,我们定义:
,
其中
称为概念
关于对象集
的辨识属性集,
称为可辨识矩阵。
根据可辨识矩阵的定义,我们可以得到计算可辨识函数的方法,则
称为直接模糊集的可辨识函数,若记
,
.
进一步,我们可以得到可辨识函数最小析取范式:
,其中,
,
则
是形式背景
下的所有概念的属性约简。
4. 新型病毒分类方法
算法4.1:
步骤1:计算出幂集P。
步骤2:对于幂集P中每一个元素X,得出
和
。
步骤3:判断
是否和
相等;若不相等,则不记录X,否则,记录X。
步骤4:将所有的X进行运算,得到辨识属性集。
步骤5:计算辨识属性集,并得到最终的约简。
具体算法流程图如图4所示:
例4.1. 设
是一个有关新型病毒的直觉模形式背景,其中对象集
,属性集
,具体信息如表2,则可根据上文讨论的理论知识以及算法对直觉模糊形式背景
的分类工作作详细地分析,结果如表3及结构如图5所示。
其中:对象x1——H5N禽流感病毒 对象x2——鸭黄病毒
对象x3——西尼罗河病毒 对象x4——埃博拉病毒
对象x5——尼帕病毒 对象x6——H7N9禽流感病毒
对象x7——汉坦病毒 对象x8——马尔堡病毒对象
对象x9——人类免疫缺陷病毒 对象x10——登革病毒
对象x11——艾滋病病毒
属性a1——核算类型 属性a5——病毒存活性
属性a2——病毒粒子对乙醚、氯仿等脂溶剂的敏感性
属性a3——免疫性(抗原关系)
属性a4——对除脂溶剂以外的理化因子的敏感性
![](Images/Table_Tmp.jpg)
Table 2. An intuitionistic formal context of new viruses
表2. 一个新型病毒的直觉模形式背景
Table 3. Concept analysis of formal context in Example 4.1
表3. 例4.1形式背景的概念分析表
![](//html.hanspub.org/file/2-1700182x687_hanspub.png)
Figure 5. Concept lattice formed by the formal context in Example 4.1
图5. 例4.1形式背景形成的概念格
例4.2. 某研究小组计划将一部分对象脱离大环境U进行研究,假设
,其中
,
,则可以得到的形式背景和概念格如表4及图6所示:
![](Images/Table_Tmp.jpg)
Table 4. New formal context reduced in Example 4.1
表4. 例4.1形式背景约简后的形式背景
![](//html.hanspub.org/file/2-1700182x720_hanspub.png)
Figure 6. Concept lattice formed by the formal context in Example 4.2
图6. 例4.2形式背景形成的概念格
结果分析:
由例4.1中表3可知,对于新型病毒,所研究的每一个属性都是绝对必要属性,当研究人员对这些新型病毒做分类研究时,这些属性都是必不可少的。所有对象之间可能存在2^11 = 2048种可能的情况,利用概念格的方法只需要针对性的研究表4中的49种情况就可以了,这无疑提供了很大的方便。如果在直觉模糊形势背景
下考虑我们的研究对象和其他对象的区别,或者在单单考虑某几个对象之间的关系时(以表3中概念FC10为例),由我们计算的辨识属性集,可以知道
是概念FC10有别于某一普通个体的优势属性组,需要重点研究,通过对
两个属性的特性的研究,有助于找到概念FC10中的对象与众不同的原因;同时对于其他属性而言,概念FC10中的对象并没有明显的优势,因此这些属性可以暂不予以考虑。
由例4.2中表4可知,在对病毒的分类研究中,假如将研究范围缩小,只是针对形式背景
研究的话,最终得到的约简
,且
是绝对必要属性,
是绝对不必要属性。我们就只需要针对
这三个属性重点考虑就可以了。对于概念FC6中的对象
而言,它的辨识属性集就是
,而对于概念FC7中的对象
而言,它的辨识属性集就是
,说明了对于不同的对象群体,在各个属性(属性组)上的优势是不同的,需要重点考虑的属性(属性组)也是不同的,但是对他们计算辨识函数之下的析取范式,就可得到针对整体概念格的属性约简,即求得所有概念与其相应外延之外的优势属性(属性组);换言之,计算出了直觉模糊形式背景下能保持概念格整体结构稳定的优势属性(属性组),这样将有助于研究整体的层次结构。
看每个表格下面的结构如图6所示,分为5层,在每一层中对象个数都相同,他们之间有不同的优势属性(属性组)。对竖线上面考虑,例如:
,我们可以理解为,这一个群体都是以
为基础的,而且后面的对象集都是建立在这个对象的基础上的,对于病毒分类而言,有助于我们可以更好的得到各种病毒的起源,找出病毒的变异方向,甚至可以预测新型病毒的产生,并提前做好预防。
相比在现实生活与工作中,往往需要考虑更多的属性,利用直觉模糊概念格方法进行约简,删除不必要的属性与冗余信息,然后可将更多的时间和精力放在绝对必要属性和相对必要属性上,这样可以得到事半功倍的效果,更好地提高工作效率,对问题更有针对性,从而较快速地得到较精确的成果。
5. 结论
在很多领域,利用直觉模糊概念格方法来研究病毒分类问题,可以获得更多有用的价值。例如,在经济领域,病毒蛋白的研究可能会带来新型可利用蛋白,创造可观的经济价值。在军事领域,我们可以利用各种病毒之间的关系,研究别有用心的国家所生产的生化武器的机制,进而获得克制办法,有效地保障国家军事和卫生领域的安全、维护世界和平。在医学领域,我们可以利用这种方法获得新型病毒的变异方向,控制变异方向,或者提前做好预防准备,减少因新型病毒而带来的损失。在政治领域,可以更加准确地了解新型病毒信息,通过媒体发布更加准确的防止病毒方法,避免因病毒而带来的地区恐慌。在各个领域的价值看似不尽相同,但核心是对直觉模糊概念格理论的有效应用。
当今时代,病毒种类繁多、变异速度加快,对病毒研究工作产生了一定的困难,尤其是病毒的分类工作。然而,通过本文的分析可以看出,利用直觉模糊概念格理论与方法从正反两方面对每一个属性进行剖析,将模糊信息处理的更加充分,这样可以更加清晰地认识病毒,从而有效地降低工作难度,提高研究人员的工作效率。
综上,本文分析了直觉模糊概念格理论。我们通过研究直觉模糊概念格中属性约简的相关理论知识,探讨了概念格的辨识矩阵和辨识函数的相关理论,研究了基于直觉模糊概念格属性约简算法,并分析了直觉模糊形式背景隐性知识的表示。基于以上理论的研究分析,本文将直觉模糊概念格应用于新型病毒分类工作中,为以后的知识获取与分类工作提供了一种新的思路。
基金项目
本文受重庆市教委科技项目(No. KJ1709221)资助。