基于textrank的多文档关键词抽取技术

基于textrank的多文档关键词抽取技术

ID:34071124

大小:629.38 KB

页数:8页

时间:2019-03-03

基于textrank的多文档关键词抽取技术_第1页
基于textrank的多文档关键词抽取技术_第2页
基于textrank的多文档关键词抽取技术_第3页
基于textrank的多文档关键词抽取技术_第4页
基于textrank的多文档关键词抽取技术_第5页
资源描述:

《基于textrank的多文档关键词抽取技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、’基于丁!∀#∃的多文档关键词抽取技术杨洁,季铎,蔡东,风代翠,,沈阳航空工业学院自然语言处理研究室沈阳%&∋()∗./4++∀,−,−0−(%123卿曲加505#.,摘要木文提出一种基于6!∀−止的多文档关键词抽取方法该方法利用月下4789方法计算文档集中的,,,词语权重义!抽取权重较大的实词为候选关键词并根据候选关键词之间的语义相似关系建立几∀#∃模型,4,词性以及词语之间的语递归计算至收敛最后生成关键词序列并抽取关键词该方法综合考虑了词语的频率义关系等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方

2、法相比,其准确,,。率提高了(4:;召回率提高9∗+∀?切≅提高(4Α;<=>0关键.Β−下Χ9Δ6尔涵欣ΔΔ词78多文档语义相%筑度ΕΦΓ0≅Η)≅∀%0#%#Ιϑ%,一80ϑ+#Κ∀ΛΗ0#6!∀#∃6Μ#0%0ΝΦ,,一,ΠΘΡ,Ρ−8ϑ0ΣΒΤ80#ΝΥ#Ν8ΒΤΣϑ,ΟΒΠ∀仙≅∀ςΩ∀#Νϑ鲍5Λ,#Ν!Λ∀≅5ΜΩ∀比≅∀0≅Φ,?Μ#Φ∀#Ν−#Λ石加0ΥΒ≅0#∀ϑ,5∀−)#Ν,#≅,#Ν,7Τ8?Μ#Φ∀#Ν,%%ΞΨΖ∋(4)一+∀,−.Φ%&%(%123Φ∀Μ,

3、50,[0+5#Λ≅∀.Λ≅∀Φ−习50##+ϑ#次沈0#+ϑ≅’Β∴6Μ,7∀]7≅Λ#Η∃Γ0≅Η−,−,一ϑ+∴Η6!∀#∃Μ=Η,5∀Τ−∀ΗΓ0ΗΛΧ#∀记Λ,#Λ≅⊥00#0##Γ,ΝΜΓ,ΜΒ69789Υ0≅Λ−,Ν∀#Η,Η∀#Η505Η6!∀#∃+Η−≅−ΦΛ+∀#,茂−∀,∴Γ,∀#Η,Η∀凡,≅∀ΗΝΜ七叹Η件旧∃−#Ν∀−Ν0≅,Μ#−,−50#/飞#5∀−∀ΛΝ#≅∀沈Η∀−,Λ0Υ∃ΦΓ0≅Η∀#Η≅习5∗此即ϑ#Η∃ΦΓ0记

4、46Μ+廿旧Η0∃,#0∀50ϑ#阮_ϑ#Φ,7∀≅0ΥΛ]Μ∀#ΗΛ+∀#,≅−∀,0#?Φ#Μ,∀−−Φ46卜≅,+#∀,≅Λϑ−ΛΛΜ0ΓΛΜ∀Μ,Λ+Μ+,#−Φ045∃ΦΓ0≅ΗΜ∀50/≅07,0Υ+ϑ−,一05ϑ+#仁Μ]0Η5∀#Μ,一4Λ0#化5∀+3#≅Λ/0+7别≅0≅一7≅,,−−∀#Η9∀Λ眠%,∀ΛΗ∴Φ(:0>,<0>Μ(Α;≅],−Φ∀ΛΗΓ,Μ∃即ΓΗ∴∀ΛΗ−≅∗−∀∴−,#∀−Ν0≅,加+4⊥?Ν0≅Λ.Χ

5、.ϑ4#ΔΛΕΦΓΗΒ69789Δ6!∀#∃+−,Η05ϑ+Λ+∀#,,≅#,−∀≅,Φ%引言文,,档聚类是一种无指导的文档归类方法它把一个文档集分成若干称为集簇的子集每个集,而。簇中的成员之间具有较大的相似性集簇之间的文档具有较小的相似性通过对文档聚类用户可以,。发现大量文档集中隐含的层次结构但却不容易理解聚类后每个文档类的主要内容如果在,。聚类的基础上加上多文档主题抽取技术川。将会更加有效的帮助用户浏览信息搜索引擎场/,Λ如、、、、、搜集Β−∀场Λ∀ΙΛΠΠ蚀浏]ΩΦ50ΛΩ0∃Λ+∀≅9,#ΗΓΜ∀等搜索引擎的结果Ξ用

6、户在它的,高级检索中可以选择具体调用哪一个或者哪一些搜索引擎Ζ对它犷琏行自动聚类整理并将结果’.,Ξ:基金资助国家2Α∋高技术研究发展计划项目Ξ:&&Α从&%:%(2Ζ教育部科学技术研究重点项目&<%(2Ζ.一,,,,.一,作者简介蔡东风Ξ%132Ζ男博士教授主要研究方向是自然语言处理和人工智能杨洁Ξ%12∋Ζ女,硕士,主要研究方向是自然语言处理、知识管理。∋1<呈现在用户面前4−,,多文档主题的表现形式有多文档文摘和多文档关键词>关键短语等然而在实际应用中用户更喜欢使用形式简洁的关键河关键短语来表现多文档主题。目前,国内外在多文档关键词

7、短,,,语抽取方面的研究较少主要有支持向量机方淑Λ切哟%%基于文本索引图的50川阶口?方%砂。,基于关键词的聚类标记方砂〕等其中支持向量机方法是基于监督学习的方法需要提前对目标,对,文档集提出假定的主题训练语料中的文档集进行正负标记Ξ假定主题为文档集的主题时该,否则,,文档集标为正为负Ζ并使用支持向量机学习正负实例构建训练模型来抽取关键词该方,.科Τ#处七法无法脱离用户的手工工作是一种半自动的关键词抽取方法基于文本索引图的Σ0≅,方法认为文档集的主题短语多为文档间的共享短语该方法对文档两两比较抽取共享短语来建立,,而文本索引图并不断对

8、文本索引图更新来抽取关键短语文本索引图的复杂结构导致其建立和Δ更新的时间复杂度和空间复杂度较大基于关键词的聚类标记方法抽取文档集合的质心向量Ξ其,,,中质心向量由多个候选关键词组成Ζ选择质心向

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。