deep+web数据源聚类与查询转换的研究

deep+web数据源聚类与查询转换的研究

ID:32941433

大小:2.40 MB

页数:76页

时间:2019-02-17

deep+web数据源聚类与查询转换的研究_第1页
deep+web数据源聚类与查询转换的研究_第2页
deep+web数据源聚类与查询转换的研究_第3页
deep+web数据源聚类与查询转换的研究_第4页
deep+web数据源聚类与查询转换的研究_第5页
资源描述:

《deep+web数据源聚类与查询转换的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京化工大学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:速塾日期:兰!!!:主:多里关于论文使用授权的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部

2、或部分内容,可以允许采用影印、缩印或其他复制手段保存、汇编学位论文。保密论文注释:本学位论文属于保密范围,在土年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。作者签名:坌逝导师鞯誓驾险日期:2竺!!:』!呈翌日期:兰!!!:全:多呈学位论文数据集中图分类号TP39l学科分类号52060论文编号1001020110759密级公开学位授予单位代码10010学位授予单位名称北京化工大学作者姓名张蓬飞学号2008000759获学位专业名称计算机应用技术获学位专业代码081203课题来源自选项目研究方向人工智能理论与应用论文题目D唧w曲数据源聚类与查询转换的研究关键词De

3、epw曲,W曲数据库,频繁项集,查询转换论文答辩日期201l_05-26幸论文类型应用研究学位论文评阅及答辩委员会情况姓名职称工作单位学科专长指导教师朱群雄教授北京化工大学智能系统与数据挖掘评阅人l许南山副教授北京化工大学网络数据库评阅人2王雪晶副教授北京化工大学图像处理与模式识别评阅人3评阅人4评阅人5椭员会捕赵瑞连教授北京化工大学软件测试答辩委员l许南山副教授北京化工大学网络数据库答辩委员2王雪晶副教授北京化工大学图像处理与模式识别答辩委员3李辉副教授北京化工大学密码学理论与应用答辩委员4肖亮副教授北京化工大学核磁共振医学成像答辩委员5注:一.论文类型:1.基础研究2-应用研究3.开发研

4、究4.其他二.中图分类号在《中国图书资料分类法》查询.三.学科分类号在中华人民共和国国家标准(GB厂r13745.9)《学科分类与代码》中查询.四.论文编号由单位代码和年份及学号的后四位组成.啪ml⋯2Ⅲ4㈣,,Ⅲ,,舢8¨¨"¨¨i●■-ⅢY摘要DeepWeb数据源聚类与查询转换的研究随着互联网的日益增长,W

5、eb已经成为人们获取信息的重要途径。W曲分为Su渤ceW,eb和De印Wreb两大类。相对而言,DeepW'eb蕴含了更为丰富的资源,而且价值更高。然而W-eb数据库分布在各个领域,只能通过查询接口进行访问,所以必须通过数据集成后才能更好的利用。将数据库按照其所属领域进行划分是De印

6、W曲数据集成中一个十分重要的环节。由于相同领域的数据库查询接口所在页面的标题和关键字往往会共享一些词汇,而这些词汇又在很大程度上反映了数据库的领域。因此,本文提出了一种基于频繁项集的聚类算法,对标题和关键字等文本提示信息进行聚类,从而实现对数据库的划分,可以使数据库的信息更好的被利用。在新算法中,频繁项集的个数决定了聚类的个数,并且频繁项集可以作为标签来描述聚类。实验验证,此方法的F.measure值可以达到O.92以上。另外,查询转换也是数据集成的一个重要组成部分,它主要负责将用户提交的查询在集成查询接口和W.eb本地查询接口之间进行转换。由于Wreb查询接口的异质性很高,因此对查询的转换

7、难度很大,通常只能做近似转换。本文对查询转换问题进行了模型化及较深入的研究,提出了查询转换器的解决方案,解决了查询转换中的源的异质性和领域的可移植性等北京化工大学硕士学位论文问题,有效的改善了查询的精度和性能。关键词:De印Wreb,Wreb数据库,频繁项集,查询转换ABSTRACTRESEARCHoNDATASoURCECLUSTE砒NGANDQUERYINTERFACECoNVERSIoNoFDEEPWEBABSTRACTWiththefastincreaseoftheIntemetresource,W.ebhasbecoIlleanimportantwayOfgettinginfoma

8、tion.W

9、ebcanbediVidedintotwogroups:Su血ceW,ebandDe印W

10、eb.De印W-ebhasmoreresourcethanSu血ceW.ebanditsresourceisofhigherquali咄Sincewebdatabaseisdist抽utedineve搿domainauldcanonlybeaccessedthroughque巧inte渤ce,it’snec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。