基于查询接口特征深度网络资源聚类的分析

基于查询接口特征深度网络资源聚类的分析

ID:32021007

大小:1.93 MB

页数:65页

时间:2019-01-30

基于查询接口特征深度网络资源聚类的分析_第1页
基于查询接口特征深度网络资源聚类的分析_第2页
基于查询接口特征深度网络资源聚类的分析_第3页
基于查询接口特征深度网络资源聚类的分析_第4页
基于查询接口特征深度网络资源聚类的分析_第5页
资源描述:

《基于查询接口特征深度网络资源聚类的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文摘要互联网的快速发展,给人们带来了海量的信息,并且这些信息仍然在快速增长。整个互联网可以划分为表层网络和深度网络两部分,其中表层网络是指通过超链接可以被传统搜索引擎索引到的页面的集合,而深度网络指的是互联网上的网络数据库,其资源只能通过网络数据库提供的查询接口才能访问。与表层网络相比,深度网络包含的数据质量更高、更专业。然而,由于深度网络数据的异构性和动态性,必须对其进行数据集成后才能有效地加以利用,而有效地把这些信息按照领域分类则是对其进行数据集成的先决条件。查询接口是进入深度网络的唯一途径,它首先是一个

2、表单,但并非所有的表单都是查询接口,对此,本文实现表单分类器将查询接口从表单中分离。同时,通过对查询接口的实验,发现查询接口所具有的特征可以代表深度数据资源的领域及查询能力,从而利用查询接口特征来聚类深度网络资源。查询接口与普通文本聚类一个区别在于查询接口的特征矩阵稀疏,因此利用传统的基于距离相似度的凝聚层次聚类算法聚类效果不是很理想,针对该问题,本文利用非参数假设检验的方法来求类簇间的相似,并改进相似度目标函数,将其运用到传统的凝聚层次聚类算法中,实现对查询接口的聚类,从而也就实现了对查询接口所代表的深度网络资源的聚类。运用假设

3、检验进行聚类时,因为统计中对事件的观察值有要求,而初始类簇不经处理可能不满足假设检验的要求,针对该问题,本文使用对查询接VI进行预处理的思想即首先对所有查询接1:3进行接1:3类型过滤,然后根据属性间的包含程度将数据分组,再根据属性的发生次数对组进行过滤,最后只对那些观察值满足假设检验的组进行聚类。而那些没有通过接口检查以及不满足观察值的查询接口称为孤立接口。对孤立接口,本文采取了再分类的方式处理它们,利用概率的方法将它们分类到其最可能来自的类簇中。通过这种先聚类再分类的方式,最终完成对接口的聚类。实验证明,利用该思想聚类取得较好

4、的聚类结果。关键词:深度网络;聚类分析;非参数假设检验;凝聚层次聚类大连理工大学硕士学位论文ClusteringAnalysisofDeepWebResourcesBasedontheQueryInterfaceFeaturesAbstractTherapiddevelopmentoftheIntemetbringsUSagreatdealofinformation,andthatinformationisstillinrapidgrowth.TheentireInteractCanbedividedintotwoparts;Su

5、rfaceWebandDeepWeb.TheSurfaceWebcallbefoundbytraditionalsearchenginethroughURL.DeepWebreferstotheonsitedatabaseandtheresourcescanonlybegotthroughthequeryinterface.ComparingtotheSurfaceWeb.theDeepWebcontainsmoreprofessionalandhigherqualityresoureces.However,thedataofDe

6、epwebareheterogeneousanddynamic,beforetheeffectivense,thedatamustbeintegrated,whiletheclassificationinaccordancewithmeirdomainsisaprerequisitefordataintegration.QueryinterfaceistheonlywaytoaccesstheDeepweb,thequeryisaform,butnotalltheformsarequeryinterface,SOthispaper

7、performsaformclassifiertofilterthenon—queryinterfaceforms.Throughexperimentsofqueryinterface,thispaperfindthatthecharacteristicsofqueryinterfaceCanrepresentdomainsofDeepWcbdataresourcesandquerycapacity,thusthisPaperclustersDeepWebresourcesonthebasisoffeaturesofqueryin

8、terface.Adifferencebetweenqueryinterfaceandordinarytextclusteringisthatthefeaturematrixofqueryinterfaceissparse.thereforethe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。