基于GA 的文本子主题切分中的参数优化研究

基于GA 的文本子主题切分中的参数优化研究

ID:38271497

大小:162.85 KB

页数:4页

时间:2019-05-24

基于GA 的文本子主题切分中的参数优化研究_第1页
基于GA 的文本子主题切分中的参数优化研究_第2页
基于GA 的文本子主题切分中的参数优化研究_第3页
基于GA 的文本子主题切分中的参数优化研究_第4页
资源描述:

《基于GA 的文本子主题切分中的参数优化研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1基于GA的文本子主题切分中的参数优化研究2钟彬彬刘远超徐志明(哈尔滨工业大学计算机科学与技术学院哈尔滨150001)E-mail:bbzhong@insun.hit.edu.cn[摘要]如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。本文首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,本文利用遗传算法对其进行了优化,自动获取的参

2、数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过本文方法获取的参数更加适合中文文档的隐式章节划分。[关键词]隐式章节划分TextTiling算法遗传算法参数优化Theresearchofparameteroptimizationinsub-topicsegmentationbasedonGAZhongBinbinLiuYuanchaoXuZhiming(SchoolofComputerScienceandTechnology,Harbininstituteoftechnology,Har

3、bin,150001)[Abstract]Howtosubdividetextintomulti-paragraphunitsisanimportantissueinmanyNLPapplicationssuchasautomaticsummarizationandQAsystem.Inmanycasestherearenotobviousmarksbetweensubtopicunits,thisbringstroublestopick-upthesubtopics.Inthispaperwefirstanalyzedth

4、ebasicprincipleofTextTilingalgorithm.Asthemanually-setparametersaffecttheresultofthesystemgreatly,weuseGAtooptimizetherelevantparameters.Theprecisionincreased7.1%bytheuseoftheseparameters.ExperimentsresultshowsthatGAisasimpleandeffectivealgorithm.Theparameterswegot

5、aremoresuitableforthesegmentationofChinesetext.[keyword]Sub-topicsegmentationTextTilingalgorithmGAparameteroptimization此外,Beeferman将统计语言模型引入到了文本主题切一、引言分中。其中前两种方法都主要是基于不同段落中相同通常一篇文档是由多个子主题组成的,每个子主词语的数目以及词语密度来进行章节划分的,这一方题包含一个或多个自然段。子主题内容的中心思想的法的优点在于其简洁性与高效性,不受领域限制。但迁

6、移充分体现了文章的思想脉络及走向。所以文档的由于考虑到的语言的特征比较少,准确率可能稍低一子主题划分对于很多自然语言处理应用如自动文摘、些。Chan的模型集成了短语复用、语义重复以及词语问答系统等来说具有重要的价值。的tf-idf等特征来进行段落之间相似性的判断,由于融在一些文档中,特别像说明文、议论文等,文中合了多种特征,这一模型能够进一步改善章节切分的有时会有小标题出现。对这样的文档进行主题划分比准确度,不过模型的建立需要借助于特定的语义知识较容易,在这里不做讨论。但是大多数文档中子主题库。在Passoneau与Litm

7、an的决策树模型中,从话语语之间没有明显的物理标记(如小标题),这给文档的进料库中抽取出来的不同语言学特征通过决策树的方式一步分析带来了一定的困难。本文所要解决的就是文集成到一起,这些特征包括话语节奏特征如停顿时间、档中不存在小标题时的主题划分方法,称为隐式章节词汇特征如在一个候选边界附近是否有特定线索词出划分。现以及深层语义特征如在一个候选边界两侧的词语之当前可用于隐式章节划分的方法主要有Hearst提间是否存在指代现象等。Beeferman的研究中则利用了出的TextTiling方法、Reynar的Dotplot方法、C

8、han的融在自然语言处理的其他领域中获得广泛应用的统计语合模型以及Passoneau&Litman提出的决策树模型等,言模型,通过与领域相关的线索词的结合,这一模型1国家自然科学基金资助项目(项目批注号60373100)和国家863计划资助项目(项目批准号2002AA117010-09)2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。