基于xml的web信息抽取系统研究与实现

基于xml的web信息抽取系统研究与实现

ID:33999017

大小:2.24 MB

页数:62页

时间:2019-03-03

基于xml的web信息抽取系统研究与实现_第1页
基于xml的web信息抽取系统研究与实现_第2页
基于xml的web信息抽取系统研究与实现_第3页
基于xml的web信息抽取系统研究与实现_第4页
基于xml的web信息抽取系统研究与实现_第5页
资源描述:

《基于xml的web信息抽取系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、膏’箩营参◆I,●分类号UDC论文题目10126.30713026密级编号研究生:圈主指导教师:丑亟量I』塾援专业:让簋扭型堂皇撞苤研究方向:△王蟹篚皇多基佳堇丕所在学院:让篡扭堂院2011年6月15日I卜一卜Nr㈧■’,原创性声明本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得内蒙直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确

2、的说明并表示谢意。一学位论文作者签名:雎日期:趁!f:么:!£!_指导教师签名:垄礁垄公日期:趁!Z:笸!≤厂在学期间研究成果使用承诺书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果(含计算机软件、程序)属于内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容

3、或研究成果,须征得内蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学计算机学院方可投稿或公开发表。学位论文作者签名:啦指导教师签名:蛆丛.白期:塑丛么!r日期:塑fZ。么么=-●内蒙古大学硕士学位论文基于XML的WEB信息抽取系统研究与实现摘要随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变..得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息一资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出

4、有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点:1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能.。3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文

5、Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。■4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,,。探讨了将抽取结果经分类后存储到数据库的不同方法。本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。关键词:XML,Web信息抽取,抽取规则,文本分类,XML数据存储基于XML的WEB信息抽取系统研究与实现XML--basedWEBInformationExtractionSystemResearcha

6、ndImplementationAbstractAscomputerscienceandtechnologyandtheInternetcontinuetodevelop,webhasbecomeessentialinourworkandlife.Webinformationresourcesaregrowingonthenumberofexponentially,webhasbecomeahugerepositoryofinformation,inordertoobtaindesiredinformat

7、ionaccuratelyandeffectivelybecomesmoreandmoredifficult,andhowtoextractuseful_informationfromawebinformationrepositoryhasbecomethesubjectofmanyresearchscientists,webinformationextractiontechnologyispresented.Basedontheresrarchinexistingwebinformationextrac

8、tiontechnologyandcombinedwiththestandardXMLtechnology,XML-basedwebinformationextractiontechnologyisproposed.Themaincontributionsinthispaperalelistedasfollows:1.Basedontheresearchinprevioustechnicalachievements,toint

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。