1. 引言
目前Web服务的空间数据服务规范主要有Web地图服务(Web Map Service, WMS)、Web要素服务(Web Feature Service, WFS)、Web覆盖服务(Web Coverage Service, WCS)等。虽然它们在服务的基本信息和操作接口信息等参数描述结构上有相同之处,但由于使不同的元数据来描述具体的服务资源,使得空间信息目录服务中的空间信息服务资源检索和共享变得困难。作为解决办法,网络目录服务(Catalog Service for the Web, CSW)的元数据信息模型和地理标记语言(Geography Markup Language, GML)得到了广泛的应用,但它们只是在语法和结构层面上实现了这些规范间的互操作,并没有解决语义异构等深层次的问题。
为实现空间信息服务资源的有效检索和充分利用,许多研究开展了不同的尝试。为缓解服务发现受自然语言模糊性的限制,文献 [1] 提出了一种新的空间信息服务发现方法,它使用描述地理空间操作的本体来创建对需求和服务功能的描述。这些描述之间的匹配是基于函数子类型的,文中还研究了如何将该方法集成到现有的空间数据基础结构体系结构中,并给出了一个典型的实现。文献 [2] 针对WPS资源的检索提出了一种新的方法。该方法将发现请求和Web处理服务都注释为逻辑编程语言中的连接查询,而发现过程则是基于这些描述之间的逻辑编程查询控制。该方法将输入和输出之间的关系形式化,使之能够更精确地捕获WPS的功能并能使用逻辑编程查询在发现过程中进行有效的推理。文献 [3] 在北极问题研究中利用基于知识的方法和空间Web门户技术,提出了一个基于分布式Web目录和动态Internet的高效服务发现混合方法,建立了一个面向科学数据与服务之间潜在语义关系建模的领域知识库,设计了一个智能逻辑推理机制来实现服务的自动选择与链接。文献 [4] 构建一个面向服务的体系结构,实现分布式地理空间数据的广泛共享和无缝集成,能将城市经济建模和有效的空间规划等复杂的问题分解为原子空间分析任务,生成一个Web服务链来解决这些复杂问题,可捕获和表示地理空间数据的来源,以追踪其在建模任务中的流程。文献 [5] 提出了一个地理空间知识基础设施的信息模型,在该模型中使用一系列不同类型的本体来表示域的知识概念,资源要素和Web服务等对象的语义细节。通过增强语义信息来进行地理空间资源的智能搜索,并支持知识推理。
上述研究在不同程度上解决了空间信息服务资源的检索问题,但由于语义异构的存在,仍存在着一些不足,如增强地理资源层面的语义信息的手段还不够有效,算法效率低等。因此,本文在前期研究的基础上,基于本体技术,采用轻量级的地理资源统一模型,提出一种新的地理空间服务发现方法并通过实验验证了其性能。
2. 背景分析
2.1. GRUM
GRUM (Geographic Resource Uniform Model)是文献 [6] 中提出的一种面向空间信息服务检索的地理资源统一模型。它是一套关于空间信息服务元数据的概念模型,遵循简单化、轻量级的原则,能够为空间信息服务的描述提供基础的元模型和统一表示。GRUM中顶层概念是抽象地理资源(Geo Resource),它派生出空间信息服务(Geo Service)、服务绑定(Service Binding)和服务参数(Service Parameter)三个子概念。除此之外,GRUM还设计了数据类型Data Type和服务类别Service Taxonomy两个待扩展的部分。这样的话,GRUM模型的基础部分主要用来对空间信息服务原有元数据进行移植和映射,扩展部分则可用来增强数据类型和服务功能的语义信息。其本体模型如图1所示。
WFS、WCS及WPS等不同类型的空间信息服务核心元数据描述都可以映射到GRUM模型上,因此,本文选择GRUM来规范化不同类型的空间信息服务。
![](//html.hanspub.org/file/3-2690269x9_hanspub.png)
Figure 1. Core classes and properties of the GRUM ontology
图1. GRUM本体的核心类和属性
2.2. 聚类关系
文献 [7] 提出,在众多可用的Web服务中,会存在着许多相似的服务,这些服务根据某些参数指标可以形成一个聚类关系。该研究基于本体技术将服务之间的功能属性和服务名的综合相似度作为服务聚类的依据。
首先,一个服务s可以表述为一个二元组:
(1)
(2)
sn是服务s的名称;O是s的操作集合,用O.IN、O.OUT分别表示该操作的输入集合以及操作的输出集合。
那么对于服务si与sj而言,它们之间的综合相似度计算公式可以表示为:
(3)
函数NSim(∙)用来计算服务的名称相似度,FSim(∙)用来计算服务的操作相似度。两者均采用文献 [7] 中提出的定义和计算方法。
因此,服务的聚类关系可以定义为所有关于服务及它们之间综合相似度的集合:
(4)
3. 方法设计
3.1. 服务匹配策略
基于文献 [7] 中的方法,将服务请求R也表示为一个二元组,如下所示:
(5)
C是一个由本体概念组成的概念集,用来归纳和表达用户对目标服务的功能需求;而O的形式与之前定义的服务s的操作集合相似,用来在语义层面上描述用户对目标服务输入和输出的要求。
服务s与服务请求R的之间的匹配相似度可计算为:
(6)
3.2. 算法设计
在以上基础上,本文设计一个基于GRUM与聚类的地理空间资源发现方法(简称GDGCR),其算法内容可以描述为:
算法:GDGCR
初始化:基于GRUM的空间信息服务核心元数据映射,设定阈值Sim0、SSim0
输入:服务请求R
输出:候选服务列表Lo
1) initiate CRi
2) set Ln = f and Lo = f
3) for each candidate si do
4) if si ∉ Ln ∧ si ∉ Lo do
5) calculate Sim(si, R); //进行服务匹配
6) if Sim(si, R) ≥ Sim0 do //若相似度达到要求
7) add si to Lo
8) else
9) add si to Ln
10) for each sj ∈ CRi ∧ sj ∉ Ln do//聚类关系中的其他服务
11) add sj to Ln
12) end for
13) end if
14) end if
15) end for
16) remain top k services in Lo based on Sim(si, R)//基于相似度升序排序并保留前k个
17) return Lo
4. 实验及分析
4.1. 实验准备
为验证本文提出的方法,设计以下实验来检验其性能。实验环境的搭建参照文献 [6] ,采用GI-cat作为空间信息目录服务,空间数据服务400个,主要来源于52 north [8] 中的WPS服务并采用GeoServer来管理。将这些数据服务随机划分为两部分,训练集占比70%,测试集占比30%;同时生成服务请求15个。参与比较的对象方法选择了基于CSW的原始查询方法(Original Query Method, OQM)以及Ranking SVM [6] 和LanbdaMART [6] 。比较指标3个:平均完成时间(Average Completion Time, ACT)、平均精度均值(Mean Average Precision, MAP)和平均折扣增益值(Normalized Discounted Cumulative Gain, NDCG),后两者采用文献 [6] 中的定义,具体如下:
(7)
其中m是本次查询产生时所有可用服务的数量,m1是指与查询相关的服务数量。
(8)
4.2. 结果分析
图2显示了这四种方法的平均精度均值指标对比情况。从图可以看出,GDGCR、Ranking SVM和LanbdaMART的MAP值都明显高于OQM,说明这三种方法检索的服务都与服务请求有较高的相关度,在这当中,LanbdaMART的MAP为0.486,Ranking SVM的MAP为0.459,本文提出的GDGCR方法MAP值为0.479,位居第二。
NDCG指标可以衡量这几种算法优先推荐和排序相关程度高的空间服务的能力。从图3可以看出,OQM的NDCG指标始终是这四种方法中最弱的;Ranking SVM表现好于OQM但不及另外两者;GDGCR在排序1的NDCG指标值高于LanbdaMART,在其他排序位置略低于LanbdaMART,两者整体表现相当。
平均完成时间ACT用来比较算法的执行效率。图4的结果表明,OQM的执行效率是这四者中最高的,这是因为传统基于CSW查询的方法没有额外计算代价,仅基于服务请求做直接简单的检索。为取得高质量的检索结果,GDGCR、Ranking SVM和LanbdaMART的执行时间都大幅增加。从图中可以看出,GDGCR的执行效率是这三者中最高的,Ranking SVM次之,LanbdaMART的效率最低。
综合以上三个比较结果可以看出,本文提出的GDGCR方法能够实现满意的平均精度均值和平均折扣增益值,并有着较高的执行效率,体现出了良好的算法性能,能有效解决存在的问题,达到了预期的设计目标。
5. 总结
为增强地理资源层面的语义信息,改善地理空间服务发现的结果,提升发现的效率,本文提出了一种新的地理空间服务发现方法。首先采用了轻量级的地理资源统一模型GRUM来规范化服务数据,其次基于本体技术建立服务的聚类关系,最后设计了相应的匹配策略和算法。实验结果表明,本文提出的方法能有效提高地理空间服务发现的性能,且较其它方法具有执行速度快和精度高的优点,表现出了良好的优越性。
致谢
本文受到湖北省自然科学基金项目(2016CKB714)资助。