探究基于bootstrapping的本体标注方法研究

ID：35128545

大小：3.72 MB

页数：59页

时间：2019-03-19

资源描述：

《探究基于bootstrapping的本体标注方法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、重庆大学硕士学位论文基于Bootstrapping的本体标注方法研究姓名：高琦申请学位级别：硕士专业：计算机系统结构指导教师：罗军2010-04重庆大学硕士学位论文中文摘要摘要随着互联网的发展，web资源呈现出高速增长，但目前互联网中的信息处理自动化低，信息之间关联性差，即使借助功能强大的搜索引擎，由于冗余信息过多，也无法快速准确地从web资源中获得有效信息。为了解决这样的问题，Web创始人TimBerners-Lee于1998年提出了语义Web的概念，它在现有Web基础之上新增了扩展层，并在这

2、层上对Web信息进行形式化的描述。因此通过本体词汇标注Web资源，将Web上资源的状态从机器可读提高到机器可理解的程度，并以此为基础发展语义Web是高效获取Web信息的解决之道。现有的大部分标注方法自动化程度低，适应性较差，效率低下。本文对本体标注方法进行了系统的研究，探索出了一种基于Bootstrapping的本体标注新方法。先对给定的本体进行解析，生成规则文件，然后通过文本分类筛选出领域文档。之后，采用Bootstrapping的方法进行信息标注抽取和Ontology推理，几次循环之后，只利

3、用少量的训练文本就能达到较好的标注效果。本文主要工作如下：①提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法。由于待标注文本往往复杂多样，若直接进行信息标注、抽取，工作量巨大且标注错误率高。因此，在标注之前，需要先进行文本分类，抽取出与领域Ontology相关的文档。为了使分类器能够在小样本情况下对文本进行正确的分类和标注，本文提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法，该算法只需少量的训练样本作为种子集，来训练分类器，然后从分类

4、的结果中挑选出部分置信度最高的文本加入到种子集中，作为新一轮的训练样本，重复训练直到结束。这样，只通过少量训练样本就能达到大量训练样本训练的结果。②提出了一种利用Bootstrapping和规则对文本集进行标注的方法。首先，根据规则文件对文本集进行初始标注，得到标注好的文本集。然后，利用实例的上下文关系，借鉴WHISK算法对抽取规则进行归纳，生成新的规则文件，标注新词汇。接着，抽取标注过的信息，填充到本体文件中。最后，借助于Ontology推理机，推理本体文件，去除错误数据，并修剪错误的规则，经

5、过多次迭代，从而使模型能达到自动抽取新实例，丰富、完善本体的目的。待迭代完成后，得到标注好的文本集合和丰富的本体库。③提出了一种基于Bootstrapping的本体标注方法。该方法将领域文本的分类和标注结合成为一个整体模型，模型每次迭代后扩充的本体库使得分类器得以继I重庆大学硕士学位论文中文摘要续进行，而由分类产生的未标注领域文档又能进一步扩充本体库。循环反复，有效的达到了利用小样本训练集进行本体标注的目的。经过大量的实验表明，该方法具有较好的分类效果，对本体的标注具有较高的准确率和召回率。关键

6、词：弱监督，规则，本体，标注II重庆大学硕士学位论文英文摘要ABSTRACTAlongwiththedevelopmentofinternet,theWebresourceshavebeengrowinggreatly,howevertheautomationofinformationprocessingoninternetisinalowstate,andtherelevancebetweeninformationispoor,evenwiththeaidofpowerfulsearcheng

7、ine,theeffectiveinformationfromthewebresourcescannotbeenobtainedaccuratelyandquickly.Inordertosolvesuchproblems,TimBerners-Lee,thefounderofWeb,proposedtheconceptofsemanticWebthataddedanextendedlevelbasedonexistingWebanddescribedtheWebinformationinafo

8、rmalizedwayonextendedlevel.ThereforetotagWebresourcesbyontologythatcouldenhanceWebresourcestatefrommachinereadabletomachineunderstandable,asabasis,todevelopsemanticWebisanefficientsolutiontoobtainWebinformation.Mostexistinglabelingmethodsareinalow-le

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 59



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

探究基于bootstrapping的本体标注方法研究

探究基于bootstrapping的本体标注方法研究

相关文章

相关标签