1. 引言
兴趣度量是关联规则挖掘过程中必不可少的一部分,不论是传统的基于支持度构建的兴趣度量,还是在模糊关联规则和高效用项集挖掘过程中基于推广的支持度的兴趣度量,它们都为删除冗余关联规则和挖掘感兴趣的关联规则发挥了极大的作用[1] [2]。这些兴趣度量的提出为科研人员挖掘自己感兴趣的关联规则提供了便利。
在众多的兴趣度量中,支持度、置信度、提升度、确信度、Laplace测度是公认的挖掘强关联规则最常用的兴趣度量,这些兴趣度量也被应用到工业、金融等领域的各种各样问题中[3]-[8]。然而对于兴趣度量的值域的研究还比较少,涉及的文章也是只给出值域,并没有进行相应的证明[9]-[11]。此外这些文章给出的兴趣度量值域不太一致。为了研究清楚这些兴趣度量的值域,本文严格证明了支持度、置信度、确信度、提升度、Laplace兴趣度量的取值范围。
2. 相关兴趣度量的定义
本节将本文涉及到的定义进行数学描述,方便关联规则挖掘算法以及本文后续所提定理的证明中使用。共涉及13个定义,包括:项集、事务标识符集、事务、和数据库表示这四种基础名词定义;两种映射函数的描述;五种兴趣度量计算方法与数学表达式。同时将根据一个较为简单的数据集D进行举例便于更直观的理解这些定义,假设数据集D包括6次的交易数据,每种交易物品用一个英文字母表示,每次交易的内容分别表示为:“交易1:{a, b, d, e};交易2:{b, c, e};交易3:{a, b, d, e};交易4:{a, b, c, e};交易5:{a, b, c, d, e};交易6:{b, c, d}”[12]。
定义1 (项集) [12]若
为一个集合,它由一组称作项的元素所构成,则集合
称为项集。
根据上述给出的数据集,可以看出共有5种交易物品,分别是:“a, b, c, d, e”。那么集合
,它的任意一个子集都可以称为一个项集,比如
是一个一项集,
是一个二项集,
是一个三项集。
定义2 (事务标识符集) [12]若
为一个由事务标识符构成的集合,则集合
称为一个事务标识符集。
事务标识符集是由一系列的事务标识符构成,以数据集D为例,一个事务标识符可以是一个购物清单的编号或者是人为给定的一系列不重复序号。那么,事务标识符集就是一个购物清单的编号或者是人为给定的一系列不重复序号的集合。假设将购物清单的编号作为数据集D中的事务标识符,则有
,即事务标识符集
。
定义3 (事务) [12] 一个形如
的元组称为事务,其中
是一个独一的标识符,X是一个项集。
以数据库D为例,每一条交易可认为是一条事务,即
,
,
,
,
,
,这6条交易,总共6个事务。
定义4 (数据库表示) [12]一个二元数据库D表示了事务标识符和项集之间的二元关系,即
。
利用定义1~3的名词解释可以将一个数据集进行数据库表示。将数据集D进行事务数据库表示的过程,就是将定义3中所给出的所有事务进行二维表格展示,如表1所示。
Table 1. Transaction database representation of dataset D
表1. 数据集D的事务数据库表示
事务标识符 |
交易物品 |
1 |
|
2 |
|
3 |
|
4 |
|
5 |
|
6 |
|
定义5 (项集函数) [12]一个将标识符集映射到项集的映射
。定义如下:
.
其中,对于一个集合X,
表示X的幂集;
,且
是事务标识符集T中所有事务的公共项的集合。
项集函数
是事务标识符集T中每个事务标识符
包含的公共项的集合。例如:
,
,
,
。这里的函数自变量没有采用集合的形式书写主要是为了书写方便以及形式上的美观,实际应该型如:
,
,
,
……下方标识符集函数的书写同样遵循这种规则。
定义6 (标识符集函数) [12]一个将项集映射到标识符集的映射
。定义如下:
.
标识符集函数
是由一系列事务标识符所构成的集合,这些事务标识符需要满足以下条件,即其对应的项集应包含项集X中所有的项。例如:
,
,
……
定义7 (支持度) [12]一个项集X的支持度为:
,(1)
,
其中,
表示D中事务个数。
这个定义中其实发生了X的定义转换,
与
中的X其实一个是项集另一个是随机事件。如果
中的X用
表示,那么定义应该按照以下方式进行书写:
假设随机事件
表示“项集X中的所有元素共同出现”,那么
。为了便于书写将
与X全部书写为X。
假设
,那么
,也就是X的支持度是包含X中的每个项出现的联合概率
。从表1中能够很容易的求出
,则
。
定义8 (置信度) [12] X发生的前提下,Y发生的概率称为置信度:
(2)
定义9 (提升度) [7] X出现的前提下Y的出现的概率与数据库中Y出现的概率的比值,或X和Y共同出现的概率与X和Y分别出现的概率乘积的比值称为提升度:
(3)
定义10 (确信度) [13]数据库中Y不出现的概率与X出现的前提下Y不出现概率的比值称为确信度:
(4)
定义11 (拉普拉斯测度) [10]拉普拉斯测度是一个考虑了支持度的置信度估计,定义为:
(5)
置信度、提升度、确信度以及拉普拉斯测度都是在支持度的基础上,利用前项、后项、前项后项共现以及它们对立事件的支持度进行计算的。
以关联规则
为例计算上述四个兴趣度量,首先需要计算项集
,
和关联规则
的支持度,经计算
,
,
。 进而再计算这四个兴趣度量,根据公式(2)~公式(5)计算得到:
,
,
,
.
3. 相关兴趣度量的值域
本节将给出五种兴趣度量值域,同时还罗列出不同文章所给出的值域并在表1中进行对比分析。
定理1 (支持度的值域)设数据库的大小
等于N,项集X在数据库D中出现的次数为
,项集XY在数据库D中出现的次数为
。那么支持度的值域为:
,
。
证明:
因为
,所以根据支持度定义(1)有
。
同理。
定理2 (置信度的值域)设数据库的大小
等于N。那么置信度的值域为:
。
证明:
由置信度定义(2)可知
。又因为
,所以
。
定理3 (确信度的值域)设数据库的大小
等于N,且
,
,
,
,那么确信度的值域为:
,当
时
。
证明:
为了书写清晰,不妨设
,
,
,其中
,
为常数,
为变量。
因为
是项集X与Y的联合概率,所以可以确定
的取值范围为:
.(6)
首先根据确信度的定义(4)可知计算式为:
. (7)
然后确定
的连续性与单调性。
1) 连续性
存在一个间断点为
处。
2) 单调性
为了确定单调性,对
求一阶导数:
.
因为
,
,所以在区间
和
上
,因此
在间断点两侧分别是关于
的单调递增函数。
根据公式(6)可以知道
,结合公式(7),那么
的取值范围就是:
.(8)
3) 考虑
的最小值
因为
可以得到:
.(9)
4) 考虑
的最大值
① 当
时,
。
② 当
时,
。显然当
与
非常接近时此式趋于无穷。
因此可以得到:
.(10)
将公式(9),(10)代入到公式(8)中可以得到
的值域为:
.
注(假设条件的解释):当
或
时,并不能根据数据判断出X对Y的影响。当
或
时,同理。因此提出
,
,
,
的假设。
定理4 (提升度的值域)设数据库的大小
等于N,且
,
,
,
,
,那么提升度的值域为:
,当
,
。
证明:
为了书写清晰,不妨设
,
,
,其中
为常数
为变量。因为
是项集X与Y的联合概率,所以可以确定
的取值范围为:
.(11)
根据提升度的定义(3)可知计算式为:
. (12)
显然是关于
的连续单调递增函数。根据公式(11)和公式(12)可知
的取值范围就是:
.(13)
因为
,
,所以
.(14)
将公式(14)代入公式(13)中得到提升度的值域为:
.
定理5 (Laplace测度的值域)设数据库的大小
等于N,且
,
,
,
。那么Laplace测度的值域为:
,当
,
。
证明:
为了书写清晰,不妨设
,
,
,其中
为常数
为变量。因为
是项集X与Y的联合概率,所以可以确定
的取值范围为:
. (15)
根据
的定义(5)可知计算式为:
.(16)
显然是关于
的连续单调递增函数。根据公式(15)以及公式(16),可知
的取值范围就是:
.(17)
1) 考虑
的最小值:
因为
,所以可以得到:
. (18)
2) 考虑
的最大值:
① 当
时,
,要使
达到最大,即使
取得最大,即
,此时
。
② 当
时,
,因为
,所以
,即
。
综合①,②所述,可以得到:
.(19)
将公式(18),(19)代入到公式(17)中可以得到
的值域为:
.
将定理1~定理5所给出的不同兴趣度量值域与另外两位作者的文章所给出的值域进行综合展示,如表2所示。
Table 2. Comparison of interest measures’ value domain
表2. 兴趣度量值域对比表
兴趣度量 |
P.J. Azevedo and A.M. Jorge [9] |
P. Lenca, P. Meyer等[10] |
本文 |
已知 |
未知 |
支持度 |
|
---- |
---- |
---- |
|
|
---- |
|
---- |
|
置信度 |
|
|
---- |
---- |
|
|
---- |
|
---- |
|
确信度 |
|
|
---- |
---- |
|
|
---- |
|
|
|
提升度 |
|
|
---- |
---- |
|
|
---- |
|
|
|
Laplace |
|
|
---- |
---- |
|
|
---- |
|
|
|
注:表中N表示某一数据库实际包含事务个数;
表示数据库D中包含项集X的事务个数,也就是项集X在数据库中出现的次数,
表示数据库D中包含项集Y的事务个数,即项集Y在数据库中出现的次数;
表示项集Y在数据库中没有出现的次数,也就是数据库实际包含事务个数减去项集Y在数据库中出现的次数,即
。
从表2中可以发现,本文给出了数据库大小是常数以及数据库大小趋近于无穷的情况下兴趣度量的值域。本文所给出的兴趣度量的值域与P.J. Azevedo, A.M. Jorge [9]的文章和P. Lenca, P. Meyer等人[10]的文章存在的不同主要有两方面,在表格中使用红色和蓝色分别标出。红色部分是与P.J. Azevedo和A.M. Jorge [9]的文章在值域的下界上存在差异:本文认为确信度的最小值可以小于0.5;Laplace的下界不能等于0。
蓝色部分是与P. Lenca, P. Meyer等人[10]在
和
已知的情况下,兴趣度量的值域上界存在差异,出现这些差异的主要原因是,该作者认为项集X在数据库中出现的次数比项集Y在数据库中出现的次数多,即
。因为关联规则
所表达的是X的出现引起Y的出现,因此直观上该作者这种理解是正确的,但是在关联规则挖掘过程并没有做出这一假设,所挖掘的关联规则也并没有排除符合
这种情况的规则。本文也正式去掉了这一假设所给出的定理1~定理5。
4. 结论
本文从关联规则中的各种兴趣度量入手,研究了兴趣度量的值域,综合多方面考量给出了支持度、置信度、确信度、提升度与Laplace测度这五种兴趣度量在数据库大小是否接近无穷的两种情况下的值域以及严谨的数学证明过程,并且还与另外两篇文章所给出的兴趣度量的值域作对比,并且解释了出现差别的原因。综上所述,本文通过严谨的数学证明和综合分析,深入探讨了支持度、置信度、确信度、提升度与Laplace测度在不同数据库大小条件下的值域,提供了更为全面和准确的值域证明,弥补了以往研究中的不足之处。此外,不仅为关联规则研究提供了坚实的理论基础,也为实际应用中的规则评估提供了有力的支持。
NOTES
*共第一作者。