deep+web查询接口聚类的研究

deep+web查询接口聚类的研究

ID:33619785

大小:1.39 MB

页数:54页

时间:2019-02-27

deep+web查询接口聚类的研究_第1页
deep+web查询接口聚类的研究_第2页
deep+web查询接口聚类的研究_第3页
deep+web查询接口聚类的研究_第4页
deep+web查询接口聚类的研究_第5页
资源描述:

《deep+web查询接口聚类的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级桂林电子科技大学硕士学位论文(全日制工程硕士)题目:(英文)DeepWeb查询接口聚类的研究ResearchonDeepWebQueryInterfaceClustering研研究究生生学姓号:名:1108521109李巍指导教师姓名、职务:强保华教授申请学位门类:工程硕士学科、专业:计算机技术万方数据提交论论文答文日期:辩日期:2013年12月2014年3月独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外

2、,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得桂林电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明本人完全了解桂林电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属桂林电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为桂林电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论

3、文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在____年解密后适用本授权书。万方数据本人签名:导师签名:日期:日期:摘要摘要随着互联网技术日新月异的发展,Web中蕴含的信息也在极速的扩张着。从网络中信息的隐含的层次深度来看。我们可以将Web划分“SurfaceWeb”(表层网)和“DeepWeb”(深层网)。SurfaceWeb”是指那些我们无需向网络提交查询或请求而可以直接访问的Web页面,这也是传统的搜索引擎,如:百度、google等当前所涉及

4、的搜索领域;而对于“DeepWeb”,用户必须通过填写表单或提交请求,才能获取所需数据。并且“DeepWeb”中的信息具有以下5方面特点:(1)传统的搜索引擎无法获取;(2)用户通过填写表单来获取信息;(3)蕴含的信息质量更高,数量更大;(4)领域特征明显;(5)大部分可以免费访问。而传统的通用搜索引擎的搜索结果仅仅覆盖了“SurfaceWeb”,因此并不能为用户返回有效的查询结果。为了向用户提供高效的DeepWeb信息搜索服务,关键是要向用户提供一个包含各个领域的统一的集成查询接口。正如百度和谷歌那样,一个简单的搜索框。在研究DeepWe

5、b数据集成时,由于DeepWeb的特殊性,使研究工作面临种种困难,目前一个公认的有效途径就是按照领域来进行DeepWeb数据集成。而如何对不同领域的DeepWeb查询接口进行有效的聚类,便成为生成集成查询接口时需要解决的核心问题之一。并且已经成为当前学术界和商业界的研究热点。论文围绕DeepWeb查询接口聚类这一核心问题展开。所做的研究工作及贡献如下:一、对DeepWeb领域整体的研究背景、研究现状、发展趋势和需要解决的关键问题进行了分析和总结。为后续研究工作打下基础。二、对DeepWeb查询接口预处理进行初步探索。对本体相关概念、体构建方

6、法和本体构建工具进行深入研究。通过构建领域本体,对DeepWeb查询接口进行语义扩展。增加同一领域内查询接口的相似度。解决部分查询接口属性稀疏的问题。三、提出了基于潜在语义分析的DeepWeb查询接口聚类算法。为解决DeepWeb查询接口聚类时“一词多义”的问题开辟新的思路。首先对潜在语义分析(LSA)的理论进行了深入研究,在查询接口聚类时引入潜在语义分析的方法,消除噪声数据,发掘出查询接口之间的内在语义关系。实验结果表明,新算法得出的实验结果要优于传统的基于向量空间模型(VSM)的方法。四、研究在海量数据情况下,如何提升查询接口聚类算法的

7、性能。考虑到DeepWeb查询接口逐渐呈现出海量的特性,以及大数据时代的到来。对Hadoop分布式平台和MapReduce编程模型进行深入学习和研究。将DeepWeb查询接口聚类算法进行并行化改造,并移植到Hadoop平台。实验结果表明,在确保算法设计正确的前提下,III万方数据“摘要对海量的DeepWeb查询接口聚类,Hadoop平台无论是在扩展性还是加速比上都表现出了优良的性能。关键词:DeepWeb查询接口;本体;潜在语义分析;Hadoop;MapReduceIV万方数据AbstractAbstractWiththerapiddeve

8、lopmentofInternettechnology,thedatavolumeofinformationontheWebshowsanexplosivegrowthtrend

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。