欢迎来到天天文库
浏览记录
ID:33983950
大小:1.95 MB
页数:66页
时间:2019-03-03
《基于xml的web数据抽取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文基于XML的Web数据抽取技术的研究姓名:吴相智申请学位级别:硕士专业:计算机应用技术指导教师:刘卫国20050401摘要Web作为一个全球化信息空间,蕴含着巨大的潜在价值。尽管目前己对Web数据抽取技术进行了大量的研究工作,但是现有的技术还不能让用户满意。XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准。论文通过对Web数据抽取步骤的分析和研究,针对目前存在的问题,提出一种快捷、实用的基于XML的Web数据抽取技术的解决方案,并对其中涉及的关键技术,如搜索策略、转换算法、
2、抽取方法等方面进行深入研究,期望为推进本领域的发展作一点贡献。论文的主要内容包括如下几个方面:1.提出了一种应用于小范围Web的搜索策略:改进的HITS算法。该算法针对小范围Web的链接结构特点,构造间接链接,并且根据用户访问的频率对链接加权。改进的算法使得小范围Web的链接结构更接近万维网的链接结构,同时链接加权输入结合了用户的反馈。理论和实验证明算法是正确的。2.提出了一种基于栈结构的HTML至IjXML的转换算法。通过栈结构的概念,有效地将HTML格式转换为XML格式。简化了数据抽取工作,方便地形成XML文档,为处理XML
3、文档、抽取出适当的数据作了铺垫。3.提出了XML数据抽取的健壮性标准,将该标准运用于XML数据抽取的区域定位和映射合并中,并分别给出了符合健壮性标准的合适方法,从而提高了数据抽取的效率。4.原型系统的实现。根据上述三点的研究结果,结合数据抽取技术、XML技术矛nJava技术,提供了一个快速、通用的基于XML的Web数据抽取原型系统,具有良好的适应性和可移植性。关键词数据抽取,XML技术,链接结构,栈,健壮性ABSTRACTAstheglobalinformationspace.W色bcontainslargepotentialv
4、alue.MuchresearchhasfocusedonthestudyofWebdataextraction,whileitscurrentstatusiSstillfarfromsatisfactionofWebusers.XMehasbecomethestandardtorepresentdatainWebanditprovidesauniforrndatamodelforWebdata.ThedissertationreviewsthestateofWebdataextractionandpresentsafastap
5、plicableWebdataextractionmethodbasedonXML.Thefurtherstudyismadeforsomekeytechnologies,suchassearchstrategy.transformationalgorithmandextractionmethod.Wewishtomakesomecontributionsfordataextraction.ThemaincontributionsofthisPaDerincludethefollowings.1.Thedissertationp
6、resentsamodifiedHITSalgorithminsmallWebsearch.Accordingtothecharacteristicoflinkstructure,weconstructimplicitlinksinsmallWeb,andweightlinksaccordingtohowoftentheywereaccessed.ThenewlinkstructureofasmallWebiSclosetothatoftheglobalWeb.andweightlinkscombinewithusers’fee
7、dback.TheoryandexperimentshowthatthemodifiedalgorithmiScorrect.2.Astack.basedHTM[LtoXM凡transformationapproachiSputforward.Itsimplifiesdataextractionandgetsreadyforextractappropriatedata.3.ThecriterionofrobustdataextractioninXMLiSproposed.ThecriterioniSappliedinXⅣ匝dat
8、aextraction:Iocationspecialareaandmappingmergingdata.Goodmethodsareprovidedforeach.Theresultsshowthatthemethodsareeffective.4.Thepr
此文档下载收益归作者所有