资源描述:
《基于语义聚类的web服务发现机制》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于语义聚类的Web服务发现机制摘要:本文提出了一种基于语义聚类算法的两阶段之类的技术不适合于处理大规模文档集合,因为SVD的存储和计算成功太高。 第二,关键词不足以表达语义概念。部分原因是关键词通常使用自然语言描述。自然语言中大量存在的同义词使得查全率降低,大量存在的多义词导致查准率降低。因此,查到的服务可能完全与期望的服务无关。为了解决这个问题,研究人员提出了语义o技术[6],通过计算查询和服务之间的相似度,可以首先从Inter上获得一个Web服务样本集。考虑这个可能性:初始获得服务集可能包含一些与用户查询无关的数据,因此为了提高服务发现的效率和降低计算成本,有必要清除这些无关数据。因为
2、一方面,这些数据可能降低算法的准确性,另一方面,会增加计算负担。因此,本文提出的Web发现机制的第一阶段就是要清除这些无关数据。 几种方法可以用来清除这些无关数据。一种可能的方案是,基于特征值选取,如[5]。这种方法,首先设置一个数字阈值,然后计算数据对象出现在集合中的个数和次数。如果这个数值小于预先定义的阈值,这个对象被视作一个无关数据,被清除。 本文使用一个不同的方法清除无关服务数据。这个方法包含两个步骤:首先使用聚类算法将初始服务集划分成不同的簇,并计算出簇中心;接下来,计算每个数据对象与每个簇中心的距离,如果距离大于预先定义的阈值u,这个数据对象被视作无关数据,应当清除。 定义1
3、:假设对于查询q,返回w个服务S={s1,s2,…,sw},聚类S到k个簇C={c1,c2,…,ck}。如果满足,,,ε是一个预先定义的阈值,cj是聚类的中心,清除服务si。 本文采用的聚类算法是k均值算法,服务集S被分为k个簇cj,每一个簇的中心被表示为:,这里
4、cj
5、表示的是簇cj的数据个数。 数据和簇中心的距离采用欧式距离公式计算: 下面的目标函数被用来表示聚类的质量: 一直运用k平均值算法,直到目标函数达到最小值。 4.2基于PLSI的服务发现 本文提出的Web服务发现机制的第二阶段基于主题模型。主题模型的核心思想是认为一个文档是由一系列的主题分布组成的,而每个主题又是由一
6、系列的关键词组成。区别于传统bagofwords模型,主题模型强调文档是由文档—主题—关键词3层关系组成,而不仅仅是文档—关键词,即文档不是仅有单个主题组成,而是由多个主题组成。主题模型是一种生成概率模型,可以应用于文本数据、图像、生物图像以及其它多维数据的识别、分类和数据挖掘。