欢迎来到天天文库
浏览记录
ID:33181351
大小:3.26 MB
页数:57页
时间:2019-02-21
《半结构化web信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:——编号:——工学硕士学位论文半结构化Web信息抽取研究硕士研究生:指导教师:学位级别:学科、专业:所在单位:论文提交日期:论文答辩日期:学位授予单位:周盛强孙长嵩教授工学硕士计算机应用技术计算机科学与技术学院2009年2月2009年3月哈尔滨工程大学Ⅲ7一⋯⋯川9;洲1号舢8类㈣弘髅M4㈣Y哙尔滨t程大学硕士学位论文摘要随着互联网的侠速发展和普及,入翻越来越依赖于鼹络获取信惠。翔柯从中快速高效的获得想簧的信患成为迫切需要解决的问题,Web僚患抽取技术应运悉生。露前,己经产生了各种各样的方法来生成包装器,餐这些方法有苓网的局限性,在精确度、健壮性
2、和通用性方瑟难以达到很高熬要求。因此,信息抽取的研究重点就是如何构建良好的包装器。本文首先对现有的信息抽取技术和XML技术进行分析与研究,提出一个基于XML技术的Web信息抽取系统。通过该系统用户能够将HTML页蘧中感兴趣的信息点抽取出来,并用结构化和扩展性强的XML来表示抽取结果。该系统具有较好的逶用性期灵活性,用声能够快速定铡应用予不露领域的Web信息掏取包装器。本文应焉XPath技术在数据定位方面的特点,提出一种基于DOM的XPath生成算法。本文利瘸XSLT作为掏取规燹
3、j的描述语言,荠使用XPath来定位待抽取信息赢。对于Web信息抽取的问题
4、利用本文提出的Web信息抽取方法能够较好她解决,露时,系统的召圆率和准确率能够达到较高的酉分比。关键谲:数据挖懿;锗崽捶取;半结构化数攥;Web略尔滨=l二程大学硕士学袋论文AbstractWiththerapiddevelopmentandpopularizationofInteract,moreandmorepeopleobtaininformationfromwcb.TofindnecessaryinformationquicklyandefficientlyfromWebhasb∞omeaseriousproblem。Webinformatio
5、nextractiontechnologycomesinto蜥耀。Manyapproacheshavebeenproposedtogeneratewrapper,buttheyhavetoodifferentlimitationstomakewrapperaccurate,robustorgeneral.So,thepreparingbetterwrapperhasbecometheresearchemphasesofinformationextraction.Afterhavinganalyzedandresearchedthetechnologie
6、sofXMLandinformationextraction,asystemof飘毫§informationextractionbasedonXMLisdevelopedinthispaper.Withthissystem,稿鞫e懋callextractinteres*戳linformationfromHTMLpages,theextractionresultsareexpressedinXMLwhichhavestrongstructureandexpansion。朝瓣systemhasthegeneralityandflexibility.User
7、scanquicklycustomizethewebinformationextractionwrapperappliedtodifferent羽嬲.Inthispaper,byusingthecharacteroftheXPathpositioningtechnologyindataarea,aalgorithmofXPathbasedOnDOMisimplemented.XSLTisusedasthedescriptionlanguageofextractionrulesandXPathisusedtolocateinformationtobeex
8、tracted.期舱methodinW曲informationextractionpresentedinthisdissertation嘲bett娌solvetheproblemof∥曲informationextraction,andalsotheprecisionandrecallofthesystemCanreachahigherproportion.Keywords:datamining;informationextraction;semi·structureddata;Web哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在
9、导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献
此文档下载收益归作者所有