欢迎来到天天文库
浏览记录
ID:34565076
大小:7.31 MB
页数:69页
时间:2019-03-08
《用于deep web数据集成的数据抽取技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:渺歹?Z擎硕士学位论文⑧论文题目用于DeepW-eb数据集成的数据抽取技术作者姓名篮世叁指导教师奎董副塾拯学科(专业)让篡扭应用这苤所在学院让篡扭堂医提交日期2Q!垒生!月§曼ADissertationSubmittedtoZhejiangUniversityfortheDegreeofMasterofEngineering1—1一⑧TITLE:DataExtractionTechnologyused...forDeepWebDataIntegrationAuthor:圣h垒塾g苎b!茎!nSupervisor:AssociatePro
2、fessorLiYingSubject:ComputerApplicationTechnology..——College:C.omputerScienceandTechnology.——SubmittedDate:Jan.5.2013独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得迸姿盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢
3、意。学位论文作者签名:签字目期:年月日学位论文版权使用授权书本学位论文作者完全了解逝望盘堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权迸姿盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:签字同期:导师签名:签字闩期:浙江大学硕士学位论文摘要随着云计算、物联网等技术的兴起,以及以社交网络、基于地理位置服务LBS为代表的新型信息发布方式的涌现,社会信息化程度不
4、断提高,信息系统产生了越来越多的数据,大数据时代来临了。大数据具有四大特征:Volume,Velocity,Variety,Veracity。从大数据的Variety特征可以看出,在大数据环境下的数据种类多样和来源繁多,有类似于关系型数据库的结构化数据,类似视频、音频等的非结构化数据,也有来大量的半结构化数据。半结构化的数据所占的份额越来越多,蕴含的价值也越来越大。半结构化数据来源之一是DeepWeb。DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容,内容数据来自于能够被在线访问的数据库中,只能通过相应的查询接口动态提交查询信
5、息来访问其蕴含的内容。DeepWeb数据信息量大,质量好,结构好。DeepWeb的数据是以半结构化的HTML页面返回的,为了利用来自于DeepWeb中的半结构化数据,如何自动化的从DeepWeb中将半结构化的数据抽取出来,转换为某种结构化的数据是亟需解决的问题。论文首先分析了DeepWeb数据抽取需要面对的问题,介绍了现有的研究方法,针对现有研究方法的不足以及结合Web结果页面的特点,提出一种数据抽取方法,并设计基于该方法的原型系统。本文的研究包括提出一种基于DOM树层次结构、值类型以及外观样式CSS相似的树匹配算法用于对Web页面进行划分,
6、改进了简单树匹配算法不能真实反映树相似匹配的缺点,然后在树相似匹配的结果之上基于最长重复子序列实现一种新颖的用于识别数据记录边界的方法,接着在总结大量Web结果页面的特征基础下,基于外观样式信息总结出一些启发式规则能够非常准确的过滤噪音信息选择出主数据区域,最后本文利用改进型的树匹配算法实现局部树数据记录对齐算法,提高数据对齐算法的准确率。最后,本文基于所提的方法设计并实现了DeepWeb数据抽取原型系统,验证方法的有效性和较高的准确性。浙江大学硕士学篁垒茎垫至一—————_-—————_●●——————___———————__———————
7、——_————————-_——————___——————●_————————-————————————————一一关键词:Deepw曲,数据抽取,树匹配算法,值类型相似,DOM树,外观样式信息AbstractWiththedevelopmentofcloudcomputing,InternetofThings,newmediaSUchassocialnetworkservices,LBSservices,theinformatizationofoursocietydevelopsveryfast.It’Stheageofbigdatasinc
8、eourinformationsystemsproducemoreandmoredataeveryday.Bitdatahavefourfeatures:Volum
此文档下载收益归作者所有