欢迎来到天天文库
浏览记录
ID:57974944
大小:338.02 KB
页数:4页
时间:2020-04-18
《基于TF统计和语法分析的关键词提取算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第1期计算机应用与软件Vo1.31No.12014年1月ComputerApplicationsandSoftwareJan.2014基于TF统计和语法分析的关键词提取算法战学冈9吴强(辽宁科技大学软件学院辽宁鞍山114051)摘要为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法提高了关键词提取的精度。关键词关键词提取权重计算语法分析中文分词中图分类号TP3文献标识码ADOI:10
2、.3969/j.issn.1000·386x.2014.叭.013KEYWoRDEXTRACTIoNALGoRITHMBASEDONTFSTATISTICSANDSYNTACTICPARSINGZhanXuegangWuQiang(SchoolofSoftware,UniversityofScie~eandTechnologyLiaoning,Anshan114051,Liaoning,China)AbstractAimingatimprovingaccuracyandpracticalityofChinesekeywordextraction,thepaper
3、proposesaChinesekeywordextractionalgorithmbasedonTFstatisticsandsyntacticparsing.Afterautomaticsegmentationuponatext,itcalculatestheweightofeachwordbyTFstatisticsandsyntacticparsing.Thenitextractskeywordsfromdocumentsaccordingtocalculationresults.Experimentalresultsshowthatthepropose
4、dmethodimprovestheaccuracyforkeywordextraction.KeywordsKeywordextractionWeightcalculationSyntacticparsingChinesewordsegmentation在国内,利用基于统计方法的有郑家桓采用非线性函数和0引言成对比较法相结合的方法,以词频和位置作为依据抽取关键词”。基于机器学习的方法有程岚岚等人提出的基于朴素贝随着网络的不断发展,每天都会有海量的信息呈现出来。叶斯模型的算法,训练模型,提取关键词。基于语义的关键信息爆炸式的增长是当前计算机自然语言处理领域面临的
5、一个词自动提取算法是在统计的基础上,先对搜集的预料进行语义重要问题。如何有效地掌控海量数据,并且准确识别、区分是否分析,然后通过对词的相似度、词性或者一些其它语法分析、语是自己所关心信息,已经成为当今亟待解决的问题。由此提出义分析来判断短语的重要性。通过语义来提取关键词,工作量关键词提取这一课题,如果一篇文章的提取的关键词的质量很非常之大,不只是对计算机知识要求高,而且还要对文学有着很高,它将会有助于人们识别、区分这海量的信息。找到自己所真深的认识和了解。正关心的信息。文本关键词自动提取的处理技术可以广泛地应用于许多领域,如文本分类,信息反馈系统、网络信息过滤系
6、统、1具体实现方法信息检索、数字图书馆,自动文摘。自然语言处理有关中文关键词的自动提取方法的研究主要关键词提取的整体流程如图1。具体方法,过程如下:分为三个方向:基于统计的关键词提取,包括词频,TF—IDF等统计信息。还有一些机器学习方法,包括遗传算法、支持向量机、最大熵模型、条件随机等。也有一些基于语义的研究工作,包括词性、语法、句话、语义依存等。国内外有很多已经成熟的算法。国际上,由Turney⋯建立名字为Extractor的关键词自动提取系统,算法核心是基于决策树和遗传算法构建的;Witten等开发了系统KEA,它采用基于朴素贝叶斯模型,对短语离散的特征值
7、进行训练,获取特征值的权值,最后可以完成从文档中提图1关键词提取流程图取关键短语的任务。LiJuanzil123采用基于词频的方法,统计词出现的次数占全文的比例,再计算权重,提取较高的作为关收稿日期:2012—09—20。战学刚,副教授,主研领域:中文信息处键词。理。吴强,硕士生。48计算机应用与软件2014正1.1分词1.2.2句法结构1.2.2.1基于规则的方法首先采用中科院的自动分词系统进行分词。基本上,90%在自然语言处理领域中,基于规则的方法主要通过人工整多都能准确切分出来,但由于一篇文章的关键词有好多是新词,很多识别不出来。因而对初次分词结果加以改进
8、,整体流程图理语法规则、
此文档下载收益归作者所有