聚类技术在web服务中的应用研究

聚类技术在web服务中的应用研究

ID:28245899

大小:17.89 KB

页数:5页

时间:2018-12-08

聚类技术在web服务中的应用研究_第1页
聚类技术在web服务中的应用研究_第2页
聚类技术在web服务中的应用研究_第3页
聚类技术在web服务中的应用研究_第4页
聚类技术在web服务中的应用研究_第5页
资源描述:

《聚类技术在web服务中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。聚类技术在Web服务中的应用研究  摘要:通过对ProgrammableWeb在线社区进行研究,发现网站上的API服务数量庞大且含有丰富的数据信息。讨论了网页采集、数据预处理等相关技术,利用K-Means和凝聚层次聚类技术在API服务数据集上进行实验,实验结果表明,K-Means算法具有更好的聚类效果。  关键词:聚类;Web服务;K-Means;AP

2、I服务数据  DOIDOI:/  中图分类号:TP319  文献标识码:A文章编号:1672--0149-03  0引言  随着技术的飞速发展,Mashup和API服务在Web开发者社区广为流行,并应用在许多开放的Web网站中。企业Web应用中Mashup与其它应用区别很大,常常不能重复使用或者没有WebAPI,人们不得不为这些应用去创建大量WebAPI。每天涌现的大量API服务需要一个平台来浏览[1]。一些在线平台,例如雅虎、等都允许用户发布各种API服务,一些非专业人士也能通过组合WebAPI服务或其它Web资源创建新的W

3、eb页面。ProgrammableWeb现在很流行,吸引了研究者的关注,推动了社区用户行为的研究[2]。目前网站已经有6730个Mashup和6为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。783个开放的API服务

4、,开发者不用测试就能将API服务结合起来。和传统的Web开发相比,Mashup越来越简单和流行,因为开发者不用测试和移植内部的Web应用就能使用这些数据,非技术人员也能通过在线社区快速集成已有的应用。  1API服务聚类  描述相似性  API服务经过文档预处理[3]后,使用词语向量集表示。向量之间的相似性表示两个文本之间的相似性,可用向量之间的夹角余弦值表示,也叫作余弦相似性,这是目前在信息检索和聚类方法中度量文本相似性的最常用方法。设定文档ta→和tb→,文档间的余弦相似性计算公式如下:  ta→和tb→是词集T={t1,

5、...,tm}上的m维向量,每一维都代表一个�~在文档中的权重,且为非负,余弦相似度非负并且属于[0,1]。  标签相似性  API服务的标注数据能起到描述API服务或是提供文本或语义信息的作用。本文根据标注数据的相似性,提出了改进API服务聚类性能的方法。给定一个包含3个标签t1,t2,t3的API服务,si的标签集Ti={t1,t2,t3}。通过Jaccard系数方法计算标签之间的相似性:  Simtag=

6、Ti∩Tj

7、

8、Ti∪Tj

9、其中

10、Ti∩Tj

11、是同时标注和标签数目,

12、Ti∪Tj

13、是Ti和Tj的并集。为了充分发挥“教

14、学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  根据以上公式,API服务si和sj的相似性sim计算如下:  sim=βsimdes+simtag其中,β是描述层相似性权值,1-β是标签层相似性权值,simdes是描述层相似性,

15、simtag是标签层相似性,β取值范围是[0,1],如果两个服务的描述和标签相同即是1,如果两个服务的描述和标签完全不同则是0。  2聚类算法  K-Means聚类算法  K-Means是数据挖掘中的经典聚类算法[4],在做大型数据集聚类时广泛使用。基本的K-Means算法中,每一次迭代计算每个数据集合对象到K个聚类中心的距离。  K-Means算法步骤如下:①从数据集D中,随机抽取其中的k个对象作为初始聚类中心;②计算每个数据对象di和所有k个聚类中心cj的欧式距离d,并将数据对象di放到最近的聚类中;③对每个数据对象di找

16、到最近的聚类中心cj,同时将di的值赋给聚类中心j;④将数据对象di所在的聚类中心标记以及存储数据对象di和最近的聚类之间的距离分别存储在数组Cluster[]和Dist[]中,设Cluster[i]=j,为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。