欢迎来到天天文库
浏览记录
ID:33174905
大小:3.03 MB
页数:94页
时间:2019-02-21
《基于本体的web非规范知识处理中采集技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC密级压卯多哥歹戈硕士学位论文基于本体的Web非规范知识处理中采集技术研究研究生姓名周座亟指导教师姓名、职称萤盍拴筮撞学科专业盐簋垫廛旦垫查研究方向堑丝堡:垦亟丝论文工作起止日期2QQ!生!旦至!!!j生!旦论文提交日期!QQ§生!旦摘要随着Intemet的快速发展,现在世界上绝大多数人都在用网络进行交流,网络在把信息传到用户方面已经取得了难以置信的成功,Web己经成为一种主要的知识来源,它经过十年左右的发展已经成为一个巨大的全球化知识仓库。Web数据的组织格式主要以HTML这种半结构化的形式为主,是典型的非规范知识。这种语言不能
2、处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮。而只是一个可交的HTML页的聚集,因此迫切希望来自网络资源的信息以一种结构化的方式来存贮,XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语言XML,它是SGML的一个子集,是一种元语言,可以弥补很多HTML的不足。随着语义网的发展,未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换,以更好地利用网络资源。不像结构化数据,
3、半结构化的数据对于数据查询来说是十分不容易的。面对Web这个信息的海洋,用户要精确地找到所需信息变得非常困难,往往面对着从搜索引擎中查找的大量的信息而不知所措。为此,人们希望可以得到一种能达到专家水平的高质量的信息抽取方案,这样可以为我们提供准确和简洁的信息来源,而不至于在信息的海洋中苦苦查找。信息抽取技术(InformationExtraction,缩写为IE)是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,lE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息
4、结构的文档,如:广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况,本文提出了基于领域本体的资源管理平台,重点实现了平台中的资源采集模块,在信息抽取中引入了Ontology技术和DOM模板技术,提出了一种基于Ontology能处理语义的Web非规范知识(HTML文档)采集系统。在实现Web网页的信息抽取中,本文引入bot网页抓取技术、lucene索引技术、Ontology技术、DOM模板技术、HTML转换XML技术和XML存储技术,实现了一种基于本体的、能把HTML非规范信息按领域本体生成的映射规则转换成XML规范信息的Web信
5、息采集系统。为了减少工作量,本文尽量采用了现有的比较成熟的技术和工具包,所以本文的工作重点是采用Java技术、Ontology技术和DOM模板技术,使用XSLT模板来实现HTML文档向XML文档的转换。即设计一个HTML_xML包装器,从HTML页面中抽取信息,以嵌入字符串列表SL的形式进行存贮,最后通过领域本体生成的映射规则映射成XML信元。把该XML文档存储到资源库中,从而实现HTML到XML的转换。关键字:信息抽取,Ontology,XML,DOM模板,XSLT,HTML到XML转换Abst怕dAbstractNowadays,alo
6、ngwiththeIntemetfastdevelopment,thewholeworldcouldpossiblycommunicatewithalldifierentpeoplewithusingweb.InordertospreadjnformationthenetworkhasalreadyobtainedenormousSuccess.ThroughthedevelopmentofaboutdecadetheWebhasbecameakindofmaininformationsource,ithasalreadybecameahu
7、gegiobalizationinformationwarehouse.Atpresent,tnternetusuattyusesHTMLthatistypicatunstandardizedknowledge,itcannothandlethevariousrequirementoftheIntemetand.1can’texpressthedataitself.TodoSO.jnformationfromwebsourcesneedstobeaccessiblejnastructuredway+XMLanditsvariousexten
8、sionsareastepjnthisdirection.Unfortunately.thewebiSnotyetawell—organizedrepositoryofnicel
此文档下载收益归作者所有