资源描述:
《一种特定领域中文自动摘要系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2000年3月北京邮电大学学报Mar.2000第23卷第1期JournalofBeijingUniversityofPostsandTelecommunicationsVol.23No.1文章编号:1007-5321(2000)01-0006-05一种特定领域中文自动摘要系统李蕾,孙春葵,杨晓兰,钟义信(北京邮电大学信息工程系,北京100876)摘要:介绍面向神经网络学习算法这一特定领域的理解型中文自动摘要系统Ladies的研究与实现,着重分析它不同于其它摘要系统的创新特色及其设计思想,并给出部分实验结果.关键词:自然语言处理;自动摘要;
2、全信息词典中图分类号:TP391文献标识码:A摘要是文献内容的缩摄,可以大大节省阅读时间,有助于文献的正确选择.在信息爆炸的今天,文献呈指数速度递增,摘要的作用更为突出,对摘要自动化的需求也日益迫切.我国关于中文自动摘要系统的研究已有十余年的历史了,通常采用的是不受领域限制的机械式摘[1]要和受限领域的理解式摘要两种技术.前者局限于文本表层信息,技术发展已近极限,摘要质量的提高必须要用到理解技术,因此研究理解式摘要是必然趋势.1系统概况我们设计实现了一个面向神经网络学习算法领域的理解型中文自动摘要系统Ladies.它有4个创新性的特色:(
3、1)首次将全信息理论应用到自动摘要系统中,采用全信息来模拟人理解自然语言的行为,并创建了一个全信息词典,对自然语言的基本单位“词”做了全方位的刻画.(2)设计了语句过滤器对文本进行预处理,将与摘要信息无关的内容过滤掉,系统集中力量处理可能与摘要信息相关的内容,大大减轻了传统理解式摘要系统对原文进行详细分析的工作负担.(3)设计了义块组配方法,可以同时完成复杂语句的语法语义分析过程,易于系统理解文本含义和提取摘要信息.同时又避开了传统的句法分析所面临的各种难题,如多动词问题.(4)充分利用了语用信息,将语句理解与摘要信息提取直接相连,大大提
4、高了理解效率和摘要生成速度.图1给出了Ladies系统的总体实现框图.收稿日期:1999-11-02基金项目:国家“863计划”资助项目(863-317-9601-06-03)作者简介:李蕾(1974-),女,山东临沂人,博士生.第1期李蕾等:一种特定领域中文自动摘要系统7输入文本分词语句义块语句信息摘要—→——→——→——→——→——→——→—文本分类标注过滤组配理解提取生成↑↑↑↑↑↑主题分词语用组配连用效用词典词典信息规则规则规则↑↑全信息词典图1Ladies系统框图2全信息理论和全信息词典要让机器能够理解自然语言,必须赋予它足够的
5、知识.为了在计算机上更好地表示知识,我们根据全信息理论,采用全信息来模拟人的自然语言理解模型.[2,3]全信息理论是钟义信教授在Shannon信息论的基础上拓展而来的,它的核心概念是全信息.任何事物的运动状态都可以用某种符号来表示,符号之间的相互关系表示事物运动状态的变化方式,因此表征了该事物抽象的形式化语法信息;这种状态/方式与它所表示的事物客体联系起来,抽象的、形式化的语法信息就具有了实际含义,这就是语义信息;而这种状态/方式及其含义一旦与具体的认识主体相联系,就会对主体显示其相对于主体目的而言的效用,这就是语用信息.全信息就是语法、
6、语义和语用信息的总称.全信息综合了各种信息,非常适用于语言理解.Ladies是一个综合利用全信息的理解型自动摘要系统.由图1可见,全信息词典提供了多种知识和推理规则,是系统的强大基础.针对系统的需要,它又分为主题词典、分词词典、语用信息、义块组配规则、概念联用规则和效用规则6部分.主题词典收集了160多个领域词汇,其结构为词汇意群类别隶属度词汇按照概念意义分为3个意群:A类是“神经网络”意群,B类是“学习”意群,C类是“算法”意群.每个词对应一个m到n(m7、比重,判断该文本是否属领域文本.该方法比将所有主题词都看成是一个集合更精确、灵活,易于扩展识别范围.分词词典中有4.8万余条词语,其结构为词语语法语义类别语用信息语法信息涉及词的语法功能分类,语义信息描述词的语义内涵.很多语句分析的难题(如歧义问题)都不是单纯的语法或语义信息所能解决的,因此我们采用语法和语义分类相结合的方法,上层按语法分类,下层按语义分类.每种类别都用4个大写字母来表示的,第1个字母指示语法分类,其余3个字母指示语义分类.语法分类参照国家标准GB13715,共13种,如名词(N)、动词(V)等.语义分类与摘要目标结合,本
8、领域的摘要信息包括:网络/算法名称、关键技术等,因此名词又可分为算法类名词(NALG)、网络类名词(NNET)、技术类名词(NETC)等.语法语义类别就是该信息的描述,共76种.这种分类针对性