基于xml的web数据抽取技术的研究

基于xml的web数据抽取技术的研究

ID:33983950

大小:1.95 MB

页数:66页

时间:2019-03-03

基于xml的web数据抽取技术的研究_第1页
基于xml的web数据抽取技术的研究_第2页
基于xml的web数据抽取技术的研究_第3页
基于xml的web数据抽取技术的研究_第4页
基于xml的web数据抽取技术的研究_第5页
资源描述:

《基于xml的web数据抽取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学硕士学位论文基于XML的Web数据抽取技术的研究姓名:吴相智申请学位级别:硕士专业:计算机应用技术指导教师:刘卫国20050401摘要Web作为一个全球化信息空间,蕴含着巨大的潜在价值。尽管目前己对Web数据抽取技术进行了大量的研究工作,但是现有的技术还不能让用户满意。XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准。论文通过对Web数据抽取步骤的分析和研究,针对目前存在的问题,提出一种快捷、实用的基于XML的Web数据抽取技术的解决方案,并对其中涉及的关键技术,如搜索策略、转换算法、

2、抽取方法等方面进行深入研究,期望为推进本领域的发展作一点贡献。论文的主要内容包括如下几个方面:1.提出了一种应用于小范围Web的搜索策略:改进的HITS算法。该算法针对小范围Web的链接结构特点,构造间接链接,并且根据用户访问的频率对链接加权。改进的算法使得小范围Web的链接结构更接近万维网的链接结构,同时链接加权输入结合了用户的反馈。理论和实验证明算法是正确的。2.提出了一种基于栈结构的HTML至IjXML的转换算法。通过栈结构的概念,有效地将HTML格式转换为XML格式。简化了数据抽取工作,方便地形成XML文档,为处理XML

3、文档、抽取出适当的数据作了铺垫。3.提出了XML数据抽取的健壮性标准,将该标准运用于XML数据抽取的区域定位和映射合并中,并分别给出了符合健壮性标准的合适方法,从而提高了数据抽取的效率。4.原型系统的实现。根据上述三点的研究结果,结合数据抽取技术、XML技术矛nJava技术,提供了一个快速、通用的基于XML的Web数据抽取原型系统,具有良好的适应性和可移植性。关键词数据抽取,XML技术,链接结构,栈,健壮性ABSTRACTAstheglobalinformationspace.W色bcontainslargepotentialv

4、alue.MuchresearchhasfocusedonthestudyofWebdataextraction,whileitscurrentstatusiSstillfarfromsatisfactionofWebusers.XMehasbecomethestandardtorepresentdatainWebanditprovidesauniforrndatamodelforWebdata.ThedissertationreviewsthestateofWebdataextractionandpresentsafastap

5、plicableWebdataextractionmethodbasedonXML.Thefurtherstudyismadeforsomekeytechnologies,suchassearchstrategy.transformationalgorithmandextractionmethod.Wewishtomakesomecontributionsfordataextraction.ThemaincontributionsofthisPaDerincludethefollowings.1.Thedissertationp

6、resentsamodifiedHITSalgorithminsmallWebsearch.Accordingtothecharacteristicoflinkstructure,weconstructimplicitlinksinsmallWeb,andweightlinksaccordingtohowoftentheywereaccessed.ThenewlinkstructureofasmallWebiSclosetothatoftheglobalWeb.andweightlinkscombinewithusers’fee

7、dback.TheoryandexperimentshowthatthemodifiedalgorithmiScorrect.2.Astack.basedHTM[LtoXM凡transformationapproachiSputforward.Itsimplifiesdataextractionandgetsreadyforextractappropriatedata.3.ThecriterionofrobustdataextractioninXMLiSproposed.ThecriterioniSappliedinXⅣ匝dat

8、aextraction:Iocationspecialareaandmappingmergingdata.Goodmethodsareprovidedforeach.Theresultsshowthatthemethodsareeffective.4.Thepr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。