资源描述:
《自动文摘综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第!#卷第K期!""!年#"月情报学报L+>F!#,KMNB=+D;<,!""!自动文摘综述郭燕慧钟义信马志勇姚均勇(北京邮电大学智能研究屮心,北京#""'$()摘要本文概述了自动文摘的发展历史和研究状况,给出当前自动文摘领域主要的研究方法和策略,剖析了它们的优点和不足•进一步结合自动文摘自身的特点和难点,提出近期自动文摘的研究重点是基于篇章话语形式的浅星分析方法生成指示型文摘.关键词口动文摘话语形式浅层分析指示型文摘!"#$%&“mp;'(#)%"%*#+,・,.
2、,/%01,"#%*2'#%13#)(4'1I3$)53#)%")*+,・./*0,l/+.2,030.,4・1/05+.2-.6,-+7*.5+.2(!"#$%%&'$"($)$*$+,(・.$"#$,/O1$&2&"'3"&4$,*/O6/*#*+"78$%$(/99:"&(+#&/"*,1$&2"'#""'$()267#$3(#8/
3、09:+*=>0.;9=/;6;?;>+:@;.=+A-*=+@-=0B9*@@-<0C-=0+.-.66;9B<0D;9=/;B*<<;.=&It;;9;-&It;B/@;=/+6+>+25-.6<;9;-<B/9=<-=;250.=/09A0;>6,-.->5C;9=/;@;<0=9-.66;A;B=9-9E;>>FG*<=/;<@+<;,O=-<2*;9=/09gt;5909=+2;=/;<E0=/=/;9=-=;+A=/;・<二-.6=/;0=<
4、;0.90B60AA0B*>=5+A9*@@・≪0C0.2,0@:>5・lt;;<H=;<@9二<-=;25B+.B;.=<-=0.2+.9/->>+E,D*=.+=9*<A-B;,=;3=・.・>5909D-9;6+.609B+*<9;9=<*B=*<;-.6+・0.60B-=0?;9*@@-<0C0.2F&9:%$&7・*=+@・=0B9*@@-<OC-=O+.,609B+*<9;9=<*B=*9/->>+E-.->5909,0.60B-=0?;
5、9*@@-<0C0.2F录或概括-的方法压缩文本;最后一步是重组原文内#简介容,生成文摘•文摘的用途和它所面向的读者群,决定了文摘输出吋对原文内容的再现形式.概括介绍一篇文章的内容可以有多种方式,其屮最主要的方法就是做文摘.文摘是准确全面地反映某一文章屮心内容的简洁连贯的短文,与索引相比更能满足信息获取的要求・[#]H动文摘的概念是由I*/.首先提岀的•当时,自动文摘并未引起人们的足够重视•但随着近年来J.=;&it;.;=的迅速普及,信息量激增,信息的自动化处理成为一个亟待解决的问题•在此吋代背景下,自动文摘越来越引起人们广泛的兴趣.自动文摘包括三个步骤(见图#)•文本分析
6、过程寻找最能代表原文内容的成分.转换过程通过摘这里我们将讨论与上述三个步骤相关的自动图;自动文摘的处理过程收稿FI期:!""#年$月#%日作者简介:郭燕慧,#%$&年生,女,博士研究生,主要研究方向为口然语言理解,自动文摘•钟义信,#%&"年生,男,教授,博士生导师,主要从事人工智能,信息论,智能通信等研究.@期H动文摘综述@?+文摘技术•文本分析和转换这两步对充分表示原文十分重要,我们的重点放在这上面•就H前的自动文摘的研究状况而言,既有采用符号,规则的基于知识的方法,也有基于词频及话语形式等文本表层特征的统计学方法;面向特定领域的自
7、动文摘似乎不难实现,而建立一个通用的文摘系统却几乎不太可能•另外,文摘的评估也是一个难题.虽囊括了原文的要点,但可读性差,不利于人的理解,那么就没起到它应有的作用.外部评价方法与文摘的H的相联系,即将摘要应用于特定的任务,根据文摘系统对该任务的促进作用来评价文摘系统的性能(如对比采用摘要进行检索与原文进行检索的准确度,来确定是否可以在"<;利用摘要来代替原文).近来,又有人尝试在基于任务的环境下测试文[::摘的个性特征参数,:+]•例如,在文本搜索屮,可