基于遗传算法的中文多文档自动摘要方法研究

基于遗传算法的中文多文档自动摘要方法研究

ID:22599253

大小:64.00 KB

页数:11页

时间:2018-10-30

基于遗传算法的中文多文档自动摘要方法研究_第1页
基于遗传算法的中文多文档自动摘要方法研究_第2页
基于遗传算法的中文多文档自动摘要方法研究_第3页
基于遗传算法的中文多文档自动摘要方法研究_第4页
基于遗传算法的中文多文档自动摘要方法研究_第5页
资源描述:

《基于遗传算法的中文多文档自动摘要方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于遗传算法的中文多文档自动摘要方法研究:本文研究的重点是中文多文档自动的几个关键技术:包括子主题划分、基于子主题的句子抽取等。在传统的基于子主题的句子抽取方法的基础上提出一种基于子主题的遗传算法句子抽取方法,并对形成的句子采用新的排序方法。所实现的中文多文档系统具有重点突出,可读性强等特点.论文关键词:遗传算法,多文档,,句子抽取,聚类随着互联X上信息的急剧膨胀,怎样快速有效使用庞大而丰富的X上信息成为一个重要而紧迫的问题。由于X上信息很大部分都是以文本形式存在,即通过自然语言描述的,因此通过使用自然语言理解技术对这些信息进行提炼分析己经成为近年来海量信息处理的一个热点研究

2、方向,信息检索、信息抽取、自动文摘等自然语言处理的高层课题都吸引了很多研究者。多文档自动技术也是其中一个重要的研究课题。2预处理文本预处理模块的主要任务是对文档进行章节、段落、句子等划分,主要以标点符号为划分依据。符号对于语法或者语义的影响可能比较大,但是对于文本预处理而言,符号就是句子间隔,将输入的原文本按照其所属章节、段落和句子等信息进行标记。另外句的句式多为陈述句,象感叹句、疑问句等特殊句式一般不直接表达文章的中心主旨,考虑这些因素,因此在文档预处理分析时,不对该类句式进行处理。在进行文档划分时,还应该考虑到全角半角标点标号的区别,为保证文本标识的准确性,还要处理文

3、本的各种标点符号,识别文本的结构,最终达到以句子为单位对文本进行分隔的目的。预处理主要包括两个部分:结构预处理和统计两部分。3句子分类分类模块:将文档簇中描述同类问题的句子进行归类。即对文档簇进行句子聚类。句子聚类:本文选择K-means均值聚类。选择原因,由于其效率高,它的计算复杂度为O(nkt),其中n为样本点的个数,k为类的个数,t为循环次数。应用K-means均值聚类需先定义两个句子间的距离。两个句子的距离可定义为:,其中SIM(A,B)为句子A和句子B之间的相似度。聚类算法:输入:文档簇的句子,聚类个数k个输出:k个类①随机选择k个句子作为每个类的中心;

4、②重复下面操作:----依据样本到中心的距离,将每个向量分配到距它最近的类中;----计算新的类中心;③直到类中心变化很小为止聚类中k值的确定通常,用户都不希望看到太长的文摘,因此会限定文摘的最大长度。如此一来,当限定了文摘的长度后,类的个数k值就可用文摘的长度除以句子的平均长度来确定:其中表示用户指定的文摘最大长度。表示原文档簇中句子的平均长度。4句子抽取通常一篇好的文摘应该具有以下特点:长度符合用户规定、尽可能多地覆盖原文档的要点、更忠实地保留原文档中的重要信息、较少的冗余、可读性好等,本节中评价函数的设计遵照上述的前四个特点。本节采用演化算法进行句子抽

5、取。该算法在句子分类的基础上首先随机产生一个文摘种群,再通过对文摘种群中的文摘个体进行评价、选择、杂交和变异生成新的种群,如此反复进行,直至满足一定的终止条件为止。基因的编码方式:采用十进制不定长编码。每一个代码表示一个句子,一组编码表示一个。编码的长度不能太长,也不能太短,长度的范围为用户要求句子数的0.5倍至1.5倍。选择方法:采用轮盘式选择:这种选择策略在遗传算法中使用的最多,它也是先计算个体的相对适应值记为Pi然后根据选择概率把圆盘分成N份,其中第i扇形的中心角为。在进行选择时,可以假想转动一下圆盘,若某参照点落入第i个扇形内,则选择个体i。这种选择策略可以如下

6、实现:先生成一个[0,1]内的随机数r,若则选择个体i。易见,这种选择方式非常类似轮盘赌中的转盘。小扇区的面积越大,色子落入其中的概率也越大,即个体的适应值越大,它被选择到的机会也越多。从而,其基因结构被遗传到下一代的可能性也越大。交叉策略:采用单点杂交。即随机选择两个亲代的一部分作交换,形成新的子代。亲代形式如下:Parent1(12548

7、96),Parent2(386

8、52)。交换的中间部分,去除重复句子得到子代形式如下:Child1(12548),Child2(3869)。变异策略:随机选择句的一个位置加入随机不重复的一个句子。评价函数的定义为:,其中:S是种群

9、中的一个个体;5文摘句排序在获得文摘句后,还需要考虑其在文摘中的先后顺序。文摘句之间存在多种排列,如有n个文摘句,其排列共有n!种之多,这种排列会影响到文摘的质量,特别是一致性、流畅性、逻辑性等,直接关系到文摘可读性的好坏。在句聚类的基础上提出了将句按类排序。即属于同一类的句排在一起。并且属于同类的句按句子分值高低排序。对于不同类的句将类内句数多的句排在前列。6实验结果6.1测试语料集所选的测试语料包括10篇新闻文章,选自人民X的高校评估检索的10篇文章。高校评估拟引入社会评价采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。