文本摘要中的句子抽取方法研究.pdf

文本摘要中的句子抽取方法研究.pdf

ID:52768471

大小:479.55 KB

页数:6页

时间:2020-03-30

文本摘要中的句子抽取方法研究.pdf_第1页
文本摘要中的句子抽取方法研究.pdf_第2页
文本摘要中的句子抽取方法研究.pdf_第3页
文本摘要中的句子抽取方法研究.pdf_第4页
文本摘要中的句子抽取方法研究.pdf_第5页
资源描述:

《文本摘要中的句子抽取方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、文本摘要中的句子抽取方法研究*张龙凯,王厚峰北京大学计算:语言学教育部重点实验室,北京10871.~r以11E:21切825@gn画】corn:抽取式摘要是从正文中按照一定策略抽取重要句子组成摘要。。基本思想是摘要本文提出了一种句子抽取方法,,。将句子的抽取看作序列栩主问题采用条件随湘肠模型对句子进行二二类菊访主根据相拍:结果抽出句子以生夕柑商要由于不在摘要中的句,,子的数量远大于摘要中的句子数摘柱过程倾向于拒绝将句子柏柱为摘要句针对此问题本文引入了修正因矜进行修正。实验表明该方法具有较好的效果。关键

2、词:文本摘要;句子抽取;条件随匀畅Reses代honSenetnCeExtraCtion人4ethodsnixtsummaanTezrioti,越堪iW汕gHouefng乃助飞灿KeyL吐幻artouoL拓csegUniviyt州压山u以由Bej11卿ofC呷atinal峡抑(pknj饥)好ofEd叭毗087..Em画l:zIk()825@gn面1co幻。Ah劝arCt:E州匕犯tivesul翔刊如比劝elnPstotextr习ct】比切tesnetncesfi习nlhteltext田lderO-耳笋

3、IuZedlellniaonat川因origina汕刊m班ynIhtjs训perwePorpoesam日由团otauotnutica]1yident1yfsignificant别习1七劲Ices.丁卜ebasciideaofhtjsmehtedsiotu.lal祀1hesn抚幻ewihtoftwoatgsnada涨xlencelnljgmedelbeelnP】oyedh。℃认七Conditional凡讥由meacone叙ncauesFeidslmodel.C~d面ngd犯tn拍叮yesnten。粥ea

4、rtendotbeerjec让沮d明othet丘比t让曰tes11teI1(x污nis切ml叼旧zaoonsih,~ltilaJlq茸均siet,niot沉ulCea。卫n戈ti丘比otrotsmoht.enleht浏Exxl幼mt找绍ulsowhtatlneletsaeshetweon仆entshourdodgg仪劝声而优.K母,ords~:抚汉t乙山on;义ntneeex七习coon;CRFUSnaIl1概述,。,随着电子文本数量的剧增快速获取文本信息的需求越来越强烈作为浓缩文本信息的技术自动摘要

5、可以扮演重要的角色。自动摘要的宗旨是为用户提供简短的文本表示。在保留尽可能多,。,:的原文信息的同时形成尽可能短的摘要对于一个理想的抽取式摘要而言具有三个基本特征、、。源自文本保留重要信息长度短l]按照摘要源自的文本个数,可分为单文本摘要和多文本摘要。按照摘要的方式,又分成生成式摘要和抽取式摘要。本文研究单文本、抽取式摘要问题。在抽取式摘要中,从文本中选取代表性句子是难点所在。BIM的Luhn在1958年提出一种基于高频词的方法,将高频词列出并给包含,。这些高频词的句子打分得分高的句子被认为是摘要句2

6、[]Bxaelldael则引入句子位置作为判断句,。子重要性的一种特征该特征被后来大部分机器学习算法所借鉴3[]Bdrnl川山刃n整合了Lul拍和Bxaae,。uendl的力祛并在禾肚文献中取得了较好的应用效果4[]Kpeiet.al在195年提出一种基于,。朴素贝叶斯算法的方法在Edin比1山刃n的基础上增加了句长等特征5[]同样使用朴素贝叶斯算法的还有19Aonectal.,一F6[]。同时期的还有。9年其中考虑了吓DI等多个特征199年Lni的方法,Lni。on不同于朴素贝叶斯算法的独立性假设采

7、用决策树算法并取得了较好的效果闭201年cory,,和’ole田y提出一种基于隐马尔可夫模型的方法由于隐马尔可夫模型有较强的独立性假设该方。s,,法仍存在不足8[]Obonre于202年提出一种基于最大嫡模型的方法结果表明通过增加先验概,::91,〔试刃7305基金资助国家自然科学基金(资助号02俐I珍3)一468一,。,率该方法优于基于朴素贝叶斯模型的方法文酬剑提出一种基于条件随机场模型的方法选择句子并在英文测试语料上有着较好的效果。在基于机器学习的文本摘要中,对代表性句子的选择大多将句子作为分类问

8、题。本文考虑了,。,句子之间的依赖关系将摘要句的提取过程看作一个序列标注问题基本思想是将文本看作是,,“”,,“”。“”句子的序列如果某个句子出现在摘要中则标为在否则标为不在利用带标的,。(,文本集合可以训练一个序列标注模型由于条件随衫肠CRF)属于全局优化的序列柏柱模型。,,,本文采用CRF模型标识句子一般而言摘要远远短于原始文本因此原文本中的大多数句子都将被排除在摘要之外。这样,训练的模型会倾向于将句子标为非摘要句。本文引入修正因子来平滑这一现象。,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。