探究基于bootstrapping的本体标注方法研究

探究基于bootstrapping的本体标注方法研究

ID:35128545

大小:3.72 MB

页数:59页

时间:2019-03-19

探究基于bootstrapping的本体标注方法研究_第1页
探究基于bootstrapping的本体标注方法研究_第2页
探究基于bootstrapping的本体标注方法研究_第3页
探究基于bootstrapping的本体标注方法研究_第4页
探究基于bootstrapping的本体标注方法研究_第5页
资源描述:

《探究基于bootstrapping的本体标注方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文基于Bootstrapping的本体标注方法研究姓名:高琦申请学位级别:硕士专业:计算机系统结构指导教师:罗军2010-04重庆大学硕士学位论文中文摘要摘要随着互联网的发展,web资源呈现出高速增长,但目前互联网中的信息处理自动化低,信息之间关联性差,即使借助功能强大的搜索引擎,由于冗余信息过多,也无法快速准确地从web资源中获得有效信息。为了解决这样的问题,Web创始人TimBerners-Lee于1998年提出了语义Web的概念,它在现有Web基础之上新增了扩展层,并在这

2、层上对Web信息进行形式化的描述。因此通过本体词汇标注Web资源,将Web上资源的状态从机器可读提高到机器可理解的程度,并以此为基础发展语义Web是高效获取Web信息的解决之道。现有的大部分标注方法自动化程度低,适应性较差,效率低下。本文对本体标注方法进行了系统的研究,探索出了一种基于Bootstrapping的本体标注新方法。先对给定的本体进行解析,生成规则文件,然后通过文本分类筛选出领域文档。之后,采用Bootstrapping的方法进行信息标注抽取和Ontology推理,几次循环之后,只利

3、用少量的训练文本就能达到较好的标注效果。本文主要工作如下:①提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法。由于待标注文本往往复杂多样,若直接进行信息标注、抽取,工作量巨大且标注错误率高。因此,在标注之前,需要先进行文本分类,抽取出与领域Ontology相关的文档。为了使分类器能够在小样本情况下对文本进行正确的分类和标注,本文提出了一种新的基于Bootstrapping和贝叶斯算法的文本分类自动学习算法,该算法只需少量的训练样本作为种子集,来训练分类器,然后从分类

4、的结果中挑选出部分置信度最高的文本加入到种子集中,作为新一轮的训练样本,重复训练直到结束。这样,只通过少量训练样本就能达到大量训练样本训练的结果。②提出了一种利用Bootstrapping和规则对文本集进行标注的方法。首先,根据规则文件对文本集进行初始标注,得到标注好的文本集。然后,利用实例的上下文关系,借鉴WHISK算法对抽取规则进行归纳,生成新的规则文件,标注新词汇。接着,抽取标注过的信息,填充到本体文件中。最后,借助于Ontology推理机,推理本体文件,去除错误数据,并修剪错误的规则,经

5、过多次迭代,从而使模型能达到自动抽取新实例,丰富、完善本体的目的。待迭代完成后,得到标注好的文本集合和丰富的本体库。③提出了一种基于Bootstrapping的本体标注方法。该方法将领域文本的分类和标注结合成为一个整体模型,模型每次迭代后扩充的本体库使得分类器得以继I重庆大学硕士学位论文中文摘要续进行,而由分类产生的未标注领域文档又能进一步扩充本体库。循环反复,有效的达到了利用小样本训练集进行本体标注的目的。经过大量的实验表明,该方法具有较好的分类效果,对本体的标注具有较高的准确率和召回率。关键

6、词:弱监督,规则,本体,标注II重庆大学硕士学位论文英文摘要ABSTRACTAlongwiththedevelopmentofinternet,theWebresourceshavebeengrowinggreatly,howevertheautomationofinformationprocessingoninternetisinalowstate,andtherelevancebetweeninformationispoor,evenwiththeaidofpowerfulsearcheng

7、ine,theeffectiveinformationfromthewebresourcescannotbeenobtainedaccuratelyandquickly.Inordertosolvesuchproblems,TimBerners-Lee,thefounderofWeb,proposedtheconceptofsemanticWebthataddedanextendedlevelbasedonexistingWebanddescribedtheWebinformationinafo

8、rmalizedwayonextendedlevel.ThereforetotagWebresourcesbyontologythatcouldenhanceWebresourcestatefrommachinereadabletomachineunderstandable,asabasis,todevelopsemanticWebisanefficientsolutiontoobtainWebinformation.Mostexistinglabelingmethodsareinalow-le

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。