基于本体的web非规范知识处理中采集技术研究

ID：33174905

大小：3.03 MB

页数：94页

时间：2019-02-21

资源描述：

《基于本体的web非规范知识处理中采集技术研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、分类号UDC密级压卯多哥歹戈硕士学位论文基于本体的Web非规范知识处理中采集技术研究研究生姓名周座亟指导教师姓名、职称萤盍拴筮撞学科专业盐簋垫廛旦垫查研究方向堑丝堡：垦亟丝论文工作起止日期2QQ!生!旦至!!!j生!旦论文提交日期!QQ§生!旦摘要随着Intemet的快速发展，现在世界上绝大多数人都在用网络进行交流，网络在把信息传到用户方面已经取得了难以置信的成功，Web己经成为一种主要的知识来源，它经过十年左右的发展已经成为一个巨大的全球化知识仓库。Web数据的组织格式主要以HTML这种半结构化的形式为主，是典型的非规范知识。这种语言不能

2、处理网络上的很多需求，因为它只是一种用于浏览信息的语言，不能表达数据本身，网络还没有形成一个良好的结构化文档的存贮。而只是一个可交的HTML页的聚集，因此迫切希望来自网络资源的信息以一种结构化的方式来存贮，XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语言XML，它是SGML的一个子集，是一种元语言，可以弥补很多HTML的不足。随着语义网的发展，未来的网页会使用具有很好结构化的XML语言，但是现在这一阶段是过渡阶段，必须思考一种方法来实现HTML到XML的转换，以更好地利用网络资源。不像结构化数据，

3、半结构化的数据对于数据查询来说是十分不容易的。面对Web这个信息的海洋，用户要精确地找到所需信息变得非常困难，往往面对着从搜索引擎中查找的大量的信息而不知所措。为此，人们希望可以得到一种能达到专家水平的高质量的信息抽取方案，这样可以为我们提供准确和简洁的信息来源，而不至于在信息的海洋中苦苦查找。信息抽取技术(InformationExtraction，缩写为IE)是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同，lE技术通常采用浅层的文本分析技术，提取出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息

4、结构的文档，如：广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况，本文提出了基于领域本体的资源管理平台，重点实现了平台中的资源采集模块，在信息抽取中引入了Ontology技术和DOM模板技术，提出了一种基于Ontology能处理语义的Web非规范知识(HTML文档)采集系统。在实现Web网页的信息抽取中，本文引入bot网页抓取技术、lucene索引技术、Ontology技术、DOM模板技术、HTML转换XML技术和XML存储技术，实现了一种基于本体的、能把HTML非规范信息按领域本体生成的映射规则转换成XML规范信息的Web信

5、息采集系统。为了减少工作量，本文尽量采用了现有的比较成熟的技术和工具包，所以本文的工作重点是采用Java技术、Ontology技术和DOM模板技术，使用XSLT模板来实现HTML文档向XML文档的转换。即设计一个HTML_xML包装器，从HTML页面中抽取信息，以嵌入字符串列表SL的形式进行存贮，最后通过领域本体生成的映射规则映射成XML信元。把该XML文档存储到资源库中，从而实现HTML到XML的转换。关键字：信息抽取，Ontology，XML，DOM模板，XSLT，HTML到XML转换Abst怕dAbstractNowadays，alo

6、ngwiththeIntemetfastdevelopment，thewholeworldcouldpossiblycommunicatewithalldifierentpeoplewithusingweb．InordertospreadjnformationthenetworkhasalreadyobtainedenormousSuccess．ThroughthedevelopmentofaboutdecadetheWebhasbecameakindofmaininformationsource，ithasalreadybecameahu

7、gegiobalizationinformationwarehouse．Atpresent，tnternetusuattyusesHTMLthatistypicatunstandardizedknowledge，itcannothandlethevariousrequirementoftheIntemetand．1can’texpressthedataitself．TodoSO．jnformationfromwebsourcesneedstobeaccessiblejnastructuredway+XMLanditsvariousexten

8、sionsareastepjnthisdirection．Unfortunately．thewebiSnotyetawell—organizedrepositoryofnicel

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 94



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于本体的web非规范知识处理中采集技术研究

基于本体的web非规范知识处理中采集技术研究

相关文章

相关标签