tfld_一种中文文本关键词自动提取方法

tfld_一种中文文本关键词自动提取方法

ID:5317742

大小:392.42 KB

页数:5页

时间:2017-12-08

tfld_一种中文文本关键词自动提取方法_第1页
tfld_一种中文文本关键词自动提取方法_第2页
tfld_一种中文文本关键词自动提取方法_第3页
tfld_一种中文文本关键词自动提取方法_第4页
tfld_一种中文文本关键词自动提取方法_第5页
资源描述:

《tfld_一种中文文本关键词自动提取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第27卷第9期2010年9月机电工程JournalofMechanical&ElectricalEngineeringV01.27No.9Sep.2010TFLD:一种中文文本关键词自动提取方法管瑞霞1,一,陆蓓1(1.杭州电子科技大学计算机应用技术研究所,浙江杭州310018;2.浙江育英职业技术学院,浙江杭州310013)摘要:为了提高中文关键词提取的准确率和实用性,提出了一种改进了候选词权重计算的关键词提取算法TFLD(termfrequentv.10-cation&distancealgorithm),利用候选词权重排序自学习,提

2、高了提取关键词算法的效率。该方法采用词语词频统计、分布区域以及词语距离位序3种特征项,并使用最小均平方(LMS)法则训练算法模型的调整因子。实验结果表明,该方法提高了关键词提取的精度。关键词:关键词提取;中文文本;中文信息处理中图分类号:TP391文献标识码:A文章编号:1001—4551(20lo)09—0123—04TFLD:anovelphrase-extractionmethodforChinesetextGUANRui。xial”,LUBeil(1.InstituteofComputerApplicationTechnology,Han

3、gzhouDianziUniversity,Hangzhou310018,China;2.ZhejiangYuyingCollege,Hangzhou310013,China)Abstract:Aimingatimprovingaccuracyandpracticalityofkey-phraseextractionforChinese,anewalgorithmwasproposed,whichnamed鹪TFLD(termfrequency,location&distancealgorithm),thecalculationaccuracyb

4、yobtainingasortedcandidatekeywordsequencewasim-proved.Basedonwordfrequencyfeaturesincludingstatisticoftermfrequency,termlocationandtermdistance,theleastmeⅢflsquare(LMS)algorithmWastrainedtocalculatetheparametersforTFLDalgorithm.Theexperimentalresultsshowthattheproposedmethodi

5、m-provestheaccuracyofkey—phraseextractioninaconsiderablemagnitude.Keywords:key-wordsextraction;Chinesetext;Chineseinformationprocessing0引言互联网络积累了海量的文本信息,如何高效地检索文本信息成为亟需解决的技术问题。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而文本关键词提取在上述方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重要工作。英文文本的关键

6、词自动标引的研究起步较早,已开发了一些相关系统。主要有Turney在C4.5决策树算法基础上实现的GenEx系统⋯。该系统使用遗传算法训练关键词提取器,然后提取器以文档为输入,经过处理后输出关键词幢1;Frank等人提出了基于朴素贝叶斯方法的提取算法,使用离散的短语特征值训练统计学习模型以获取输人参数,较好地实现了关键短语的自动提取∞】。由于汉语没有显式的词边界,其关键词的自动抽取问题较英文文本的相同问题更为困难。为此需要依次对文本进行应用分词算法、词法分析、语法处理以及语义分析,使用最多的~种方法是基于PATTree结构获取新词【4J。另外李素

7、建等人提出的最大熵模型利用各种成熟的语言学工具首先从文档中获取关键词候选项,提出了如何计算最优概率分布的方法,并建立了一个特征集合,再根据丰富的语言特征来判断候选项是否可以选做文档的关键词∞】。而基于语义的关键词提取算法在统计信息的基础上着重强调了语义对关键词判断的影响∞J。此外,基于词汇链的关键词提取算法‘列则在分词词频、文档反频、分词位置等基本统计手段的基础上,引入了词汇链的概念。然而,现有中文文本关键词提取算法需要较大的空间代价,导致其实用性受限。实际应用系统工作通常基于高频词提取等手段,但文档中的关键字往往并收稿日期:2009—1l一25

8、作者简介:管瑞霞(1981一),女,浙江瑞安人,主要从事中文信息处理方面的研究.E-mail:grxl981@163.corn万方数据·

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。