欢迎来到天天文库
浏览记录
ID:34004047
大小:7.78 MB
页数:62页
时间:2019-03-03
《deep+web查询接口发现与特征提取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、DeepWeb查询接口发现与特征提取技术研究⑧重庆大学硕士学位论文(专业学位)学生姓名:贺迅指导教师:冯永副教授兼职导师:李志国高工学位类别:计算机技术领域重庆大学计算机学院二O一二年四月AnalysisofDeepWebQueryInterfaceDiscoveryandSchemaExtractionTechnology⑧AThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheProfessionalDegreeByHeXunSupervisedbyAss
2、ociateProf.FengYongPluralisticSupervisedbySeniorEng.LiZhiGuoSpecialty:ComputerTechnologyFieldCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2012重庆大学硕士学生论文中文摘要摘要伴随着Internet快速发展,许多网络应用深入人们日常生活,搜索引擎技术是其中的佼佼者。传统的搜索引擎技术无法找到的网络数据资源被称为DeepWeb。DeepWeb数据挖掘研究是网络数据管理与集成的热点研究
3、方向。现阶段的DeepWeb研究主要集中在查询接口深度集成和查询结果模式抽取两方面,目的是建立起DeepW}eb数据集成框架,但是真正的集成体系尚未构建完善。作为集成框架的基础,正确有效的进行DeepWeb查询接口发现、分类、集成处理尤为重要。本文研究工作是寻找一种自动深度网查询接口发现技术和查询接口特征提取技术从而有效的进行查询接口深度集成,主要研究及成果如下:第一:DeepWeb页面的标签特性、视觉特性、层次特性通过对大量DeepW.eb页面的分析,发现了DeepW曲页面存在着标签特性,视觉特性,层次特性。标签特性方面,分析DeepWeb页面的HTML文档
4、将其标签结构转化为树形结构,从而更好的利用计算机进行数据分析和处理:视觉特性方面,分析了DeepWeb页面的页面布局,通过对各个标签的视觉特征属性进行分析从而将其转化为视觉块,标签视觉块的有效组合拼凑构成了页面整体;层次特性方面,根据人们浏览网页资源时的视觉特性以及网页标签的树形结构,构建标签树层次结构对应的视觉图层,页面是视觉图层的叠加。第二:基于层次结构的DeepWeb查询接[21发现结合DeepWeb页面的标签、视觉、层次特征,文本提出了基于层次结构的DeepWeb查询接口发现技术。该方法通过分析页面的总体标签结构构建出页面的标签树,通过分析标签的视觉特
5、征构建出视觉块,然后将标签树各个层次按视觉块堆积转化为视觉图层,分析查询接口的标签特性和视觉特性以及查询接口占据页面核心区域的特点,最后计算控件标签的聚合度来判断查询接口。第三:基于潜在领域的查询接口特征提取深度网查询接口由多个控件和词组汇集而成,本文将查询接口转化为纯文本,然后结合文本处理的研究方法来处理查询接口的特征提取,论文提出基于潜在领域的查询接口特征提取技术。该方法基于潜在领域模型,针对每个词都有属于不同主题、领域不同概率这一特性,通过对查询接口文本进行聚类分析,判断出文本潜在领域,最终提取出深度网数据源领域相关词汇作为查询接口的特征。关键字:Dee
6、pWeb页面,标签树,聚合度,层次结构,潜在领域ABSTRACTAsthedeV引opmentofIntemet,lotsofwebapplicationsgodeepintopeople,seVeryday胁,andsearchengineisoneoftheexcellentapps.ThewebdataresourcethattraditlonalsearchenginescannotfindiscalledDeepWeb.AnddatamillingofDeepWeb1sahottopicinresearchofwebdatamanagementand
7、integration.IlaecurrentDeepWebresearchfocusesmainlyontwocaSeswhjchincludedeepIntegratlonofqueryinterfaceandschemaextractionofqueryresuIts.HoweveLthemeaning如¨ntegrationsystemisnotperfectyet.Asabasisofthesystem,itisquite1mponanttodlscoVer,classify,anddealwiththequeryinterfaceofDeepWeb
8、inacorrectandeffici
此文档下载收益归作者所有