信息抽取的义素研究

信息抽取的义素研究

ID:28385290

大小:62.62 KB

页数:3页

时间:2018-12-09

信息抽取的义素研究_第1页
信息抽取的义素研究_第2页
信息抽取的义素研究_第3页
资源描述:

《信息抽取的义素研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、信息抽取的义素研究[摘要]讨论信息抽取的语素角度建设问题。提出从义素角度实现信息抽取的可行性,并通过“义素词库''的建立实现文本信息抽取的一步实现问题。[关键词]信息抽取义素范畴义素词库信息抽取指用计算机自动地从一段文木中抽取岀指定的一类信息,并将其形成结构化的数据填入一个数据库中供用户查询和使用的过程。关于信息抽取袁毓林先生从语义的三个方而做了系统的研究:宏观的语篇知识,小观的论元结构知识和微观的逻辑结构知识。通过这三方面知识和统计方法的结合来建立的带有语义关系标注的语料库,为信息抽取做准备。实际上这种做法完成信息抽取进行了

2、两步。这种做法能够解决文本表层大部分的信息提取问题。但是,新文本随时在出现,网络上信息正在以成倍的速度在増长。随着计算机智能技术的不断发展,新需要每时每刻都在提出,对信息抽取的精度和速度要求也在不断提高,而统计的方法永远是滞后的。本文拟从更微观的语义层次义索层来对深层信息抽取从知识的角度做一个探索性的研究,以期达到通过一步运算实现信息抽取的目的。一、义素可以为信息抽取做什么(一)义索范畴信息抽取是一个对文木意义判断的过程,文木意义归根结底是由词汇承担。我们将其落实到词义的判断这一层次來考察。从语义学角度看,词的语义单位分为词义

3、,义位和义索三个层面。词义是指词的所有意义,义位是指词的某个意义。义素,也叫语义特征,是由分析义位得到的。义素是理论分析的结果,是一种不与语音形式相联系的,抽象的语义单位。义素实际上在不同的语义关系中都有区别义位的功能。义位就是一束义素。词义具有一定的系统性,词在一定的语言环境屮使用时,由于语境的确定性,词义一般是凸显出其一个义位。词义的发展过程,是由这个词在历史上最早出现吋的原始意义,通过隐身、扩展、借用等方式发展出许多与木义相关的后起义。由于都是从一个本义出发发展而來的,在一个词的各个后起义之间,必然存在着联系。因此,一个

4、词语的义位同临近的其他义位可以建立起齐种关联,从而处于互相依存,互相规定,互相制约的关系之中。“语义场,'就是这种词义系统性的重耍表现,它是借用物理学中的“场"的概念而来的,是指语义的类聚。一个语义场就是一个局部的词义系统,在这个系统中,类属义素划定意义领域被划分成若干块,并分配给不同的词语,这些词语以一•种互补的方式对同一意义领域进行反应。语义场是依据某一类屈义素为标准建立起來的,是貝有某一类属义素的词语(义位)构成的聚合体,而这一类屈义素是指反映事物所屈类别的语义特征。这样,每一个词根据其不同的义素都可以属于不同的语义场,

5、即不同的意义范畴。而这个词的意义正是这些意义范畴的交集。例如:(汉语中表同胞的亲屈词语义成分矩阵,引口石安石《语义论》)这里面,[同胞]、[男性]、[年长]是三个义素,同时代表了三个不同的范畴。“哥哥”是[+同胞][+男性][+年长]这三个范畴的交集,“弟弟',是[+同胞][+男性][一年长]这三个范畴的交集,“姐姐"是叶同胞][—男性][+年长]这三个范畴的交集,“妹妹”是[+同胞][一男性][一年长]这三个范畴的交集。(-)信息抽取范畴要实现信息的抽取就是要实现对文本意义的判断。而对于要抽取的信息首先得有一个预期,即哪些信

6、息是耍提取的,哪些不是。而这一预期耍以一个范畴的方式体现出来。即耍抽取的信息是屈丁•哪个范畴的。这里正好与我们对义素范畴的说法衔接起来。使信息抽取与义素判断接轨。例如,袁毓林先生在其文中举例说明信息抽取的对象是什么:“从i篇关于军事演习的新闻报导中摘录出演习的类型、时间、地点、兵种、武器、装备、假想敌、后勤保障等信息。”对其进行篇章知识,语义关系,句内逻辑关系的标注就是为了在信息抽取时可以更便捷。我们试着从义素判断的角度来思考这个问题。就以“时间”、“地点”、“兵种”、“武器J“装备J“假想敌J“后勤保障”为例。就我们对现代汉

7、语文本的观察来看,承担这些信息的都是词语。就是我们前面提到的,对文本进行语义判断归根到底是对词语进行语义判断。承担“时间"这一信息的都属吋间范畴,承担“地点''这一信息的都属处所范畴,承担“兵种”这一信息的步兵、骑兵、空军和海军等都属兵种范畴。这样我们进行信息抽取时只需要判断文木中的词语哪些具有这些义素,就可以将其直接抽取出來。这种方法将使未进行篇章语义关系标注的文本信息抽取更加便捷。能够提高了信息抽取的效率。二、需要做的工作建立义素词库要实现从对义素的判断着手一步实现信息抽取需要一个具有义素的词库的支持。口前为止仍没有实现,

8、而且似乎大家对这样的词库也不抱有希望。当然这是曲于客观情况决定的。义素理论是仿照音位区别特征理论建立的,但是跟音位特征比起来义素要复杂的多。音位的区别特征是有限的,而义素却似乎是无限的,要建立能够区别所有词义的义素系统似乎是不可能的。但是就信息抽取来说,我们也许可以换一个角度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。