信息提取技术概述_中_

信息提取技术概述_中_

ID:5389244

大小:289.35 KB

页数:4页

时间:2017-12-08

信息提取技术概述_中__第1页
信息提取技术概述_中__第2页
信息提取技术概述_中__第3页
信息提取技术概述_中__第4页
资源描述:

《信息提取技术概述_中_》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、·语言信息处理·信息提取技术概述!中"’孙斌(北京大学)!"#$$%&’(%)’*+*,-+,*&$%)’*+./)&%0)’*+(1)!"#$%&四、信息提取中若干基础性问题指定的信息”是信息时代人们的一个自然愿由于文本信息提取是一个富有挑战性和望,由此可以突破信息检索的局限性,将由人探索性的课题,对许多相关问题的认识以及求来阅读、理解、提取信息的过程变成由计算机解需要长期研究、不断积累。这里只讨论了其自动查找、匹配和提取信息的过程,从而实现中几个比较重要的方面,包括:信息提取作为“有限技术的无穷运用

2、”。不过在这个简单的模一门应用技术的目标和核心策略;从信息论的型中有许多问题是需要认真研究的。首先要明角度理解信息提取过程的要素,以及信息提取确的一点是:这门技术究竟是用于做什么类型的信道模型。的事情、它又能做什么和不能做什么事情。$%关于信息提取的目标、问题及其核心对我们对此的一个认识和体会是:并非任何策形式的信息都是可以自动提取的;实际上,由根据前面的说明,我们可以把整个信息提于计算能力和语言资源的限制,可以提取的信取概括为以下一个基本流程,见图$。息类型是(非常)有限的。因此在研究信息提取技术的过

3、程中,树立一种实用的态度是必要指定(的)文档库填好的模板的。尽管人们的信息需求是无限多样的,我们信息提取不能漫无边际地对任何一个实际的信息提取系统提出“(百科)知识理解”或“人机对话”那样不受限的任务,而是应该从实际应用的角度,细致地考察自己对信息提取的目标要求,并且明确对于当前的技术和资源水平而言,哪(作为一种数据库接口)些类型的信息提取任务是可行的、有效的,哪图$些是困难的、不切实际的,从而使得信息提取这门技术能够真正发挥出实际效益。如果没有这个过程也反映了人们研究信息提取技很好地理解所需要提取的信

4、息类型和特征,则术的背景与动机。通过自动的方式实现“提取很难确定有效的信息提取目标和任务;而如果!"#!·语言信息处理·对所需要的信息类型和特征定义得越清楚,实()提取事件模板&多元语义关系$“结际提取的效果就会越好(因此也存在一种“信构”’息提取需求分析”的过程)。———把有关开会、出访、产品发布、公司那么有什么原则来明确可以$适合与不可合并等“单纯信息”提出来&把预先定义好的以$不适合提取的信息类型呢?在研究过程中表格填上’;我们感到这并非是一个可以简单、明确地回答———把有关股价变动、职务变化、市

5、场行的问题。它涉及一系列非常基本的问题,包括情等(带有时态信息)的事件提出来;什么是“信息”?什么是“可提取的文本信———把报道恐怖活动的报道找出来&10’,息”?到底有多少类别$不同层次的信息?如并按照事件的地点$时间$参与者$⋯分类、排何定义$形式化表示需要的“信息”?计算机序;需要预备什么“信息”才能自动提取信息%整———找出$推断两个事件的时间、因果、个问题的核心策略(如果存在)是什么?等人员等关联;等。———找出“红楼梦”中某个人&例如234’在这里虽不能对上列问题给出明确的解参与的某些指定的

6、事件$活动;答,但可以讨论我们在处理相关问题时所应该———⋯⋯采取的态度和策略。我们认为可以把信息提取显然,就当前的技术水平而言,后一层次任务按照所涉及的语言处理的复杂程度分为三中的许多信息类型还是非常难于处理的。对于类。而从信息论的角度看,它们大致对应了符一个信息提取系统,我们应该把工作的重点放号&句法’信息、语义(关系)信息和语用信息在有可能实现的技术上,主要是实体和实体关三个层次(见下面的讨论)。我们可以用一些系识别、简单类型的事件信息匹配等。由于更由简到繁的简单提取任务作为例子来说明这三复杂的信

7、息中有很多是由这些简单、基本的信个层次的信息类型:息类型组合起来的,加强对基本类型的信息提()提取单个实体&*+,-./’取研究便具有长远的意义。———把电话号码、电子邮件$网址、时间我们可以用物质结构规律来理解这种关&表示’、价格等提出来&列出来即可’;系。正如物质是由分子组成、而分子是由原子———把人名、地名都提出来;组成的一样,信息的组成方式也具有相似的层———把机构$团体名都提出来;次关系,见图(。———把产品$商标名都提出来;———⋯⋯()提取实体&二元’关系&+0,-./’把某某人、公司、院

8、校、⋯的电话号码、电子邮件$网址等提出来;———把位于某某地区的公司名都提出来;———把某某公司发布$推销$⋯的产品都提出来;图(———把某某公司或产品的行业类别找出例如,使用这种观点考察如下的一个短来;语,我们可以对命名实体及其关系有一个比较———⋯⋯明确和系统的处理策略,见图"。!"#!·语言信息处理·在信息检索中,文本被看作是词或项$*0163符号串%的集合,并作为一个概率空间建立模型。如果我们也把文本看作是命名实体串及其上面的各种实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。