基于Ontology的信息抽取

基于Ontology的信息抽取

ID:36754853

大小:270.88 KB

页数:7页

时间:2019-05-14

基于Ontology的信息抽取_第1页
基于Ontology的信息抽取_第2页
基于Ontology的信息抽取_第3页
基于Ontology的信息抽取_第4页
基于Ontology的信息抽取_第5页
资源描述:

《基于Ontology的信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于!"#$%$&’的信息抽取廖乐健曹元大李新颖(北京理工大学计算机科学工程系人工智能研究所,北京%"""A%)5B234=:=431=CDEF%:$#’)(摘要为了提高&’()*’)(上的信息搜索效率,基于内容的搜索引擎成为迫切的用户需求。但内容信息的手工获取是一项繁重的工作。从文本或半结构化文档中自动地抽取用户关心的内容信息且表示成计算机能理解的形式是一项极具实用价值的挑战性研究。该文从知识表示与推理的角度研究了提高信息抽取智能性的途径,提出了将<’(1=1>?与模板规则相结合的技术,并针对线性模板表示

2、的局限提出了基于二侧树结构的模板规则表示,同时实现了此表示下的假设生成——冲突消解推理。该技术成功地应用于招聘广告的信息抽取。关键词信息抽取<’(1=1>?模板规则文章编号%""!BA$$%B(!""!)!$B"%%"B"G文献标识码H中图分类号@I$J%#$!"#$%$&’()*+,-."/$01*#2$"34#0*5#2$"62*$6,72*"8*$9:*"-*62;2"’2"&(H&/3,1*3(1*?,K)(L#10M12LN()*O74)’7)P5’>4’))*4’>,Q)4C4’>&’R(4(N

3、()10@)7D’1=1>?,Q)4C4’>%"""A%)<)+#0*5#:@123E)4’01*23(41’R)3*7D4’>37*1RR&’()*’)(21*))00474)’(,71’()’(B,3R)SR)3*7D)’>4’),)712)R21*)3’S21*))00474)’(#T1U)V)*,(D)23’N3=23*E4’>BNL1071’()’(4’01*23(41’4R3=3,1*4’>U1*E#HN(123(47)6(*37(41’1071’()’(4’01*23(41’0*12()6(1

4、*R)24BR(*N7(N*)SS17N2)’(R4R3S)23’S4’>3’S7D3==)’>4’>()7D’1=1>?#@D4RL3L)*342R3()’D3’74’>(D)4’()==4>)’7)104’01*23(41’)6(*37(41’R?R()2RU4(D42L*1V)SE’1U=)S>)*)L*)R)’(3(41’()7D’4WN)R#&(L*1L1R)R(1712,4’)(D)<’(1=1>?*)L*)R)’(3(41’U4(DL3(()*’*N=)R,3’S(1NR),4BR4S)(*)

5、)3R(D)R(*N7(N*)10712L1R4’>3L3(()*’0*12L3(()*’)=)2)’(R4’*)L=37)10(*3S4(41’3=R)WN)’(43=R(*N7(N*)#&’RN7D*)L*)R)’(3(41’,3’4’01*23(41’B)6(*37(41’)’>4’),3R)S1’D?L1(D)R4RB>)’)*3(41’P71’0=47(B*)R1=N(41’L*17)SN*)4R42L=)2)’()S#@D)L*1L1R)S()7D’4WN)4RRN77)RR0N==?3LL=4

6、)S(14’01*23(41’)6(*37(41’R?R()201*C1,B*)7*N4(2)’(3SV)*(4R)2)’(R#=,’>$0-+:&’01*23(41’)6(*37(41’,<’(1=1>?,I3(()*’*N=)R%引言这种标注为信息抽取提供了启发式信息。随着&’()*’)(的快速发展,+),已经成为跨全球的信息目前的&5技术主要是通过为待提取的目标成分建立相应源。使用传统的搜索引擎,用户要精确地找到所需信息往往十的模板库,并将文档内容与模板库中的模板匹配而实现的。模分困难。提高搜索引擎准

7、确性的一个主要途径是使其在某种程板的表达能力直接影响系统的准确度。现有的系统一般是采用度上理解信息源的内容。目前在互联网研究领域兴起的语义关键词与通配符的序列组合作为模板。但这种结构有很大的局+),技术就是朝这个方向进行的努力。语义+),技术在-./限。首先很多情况下词之间并无固定的次序关系;其次词的多信息结构标注技术的基础上,进一步对信息的内容进行语义标义性常常会导致错误的分析结果。要克服这些局限,其一是增注,从而实现基于内容的检索。但文档的语义标注是一项繁琐强模板的知识表达能力;其二是实现某种歧义消解机

8、制。该文的工作,手工标注费时费力,有必要采用信息抽取技术自动提提出一种基于<’(1=1>?与规则相结合的&5技术,采用<’(1=1>?取出文档的语义信息。信息抽取技术(&’01*23(41’56(*37(41’,缩和树形模板的结合增强模板的语义表达能力,并通过在规则中写为&5)8%9:;是一种面向具体任务的实用的文档理解技术。与复计算假设的可信度来实现歧义消解。该技术已在笔者设计的信杂的自然语言理解技术不同,&5

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。