基于全覆盖粒计算模型的文本表示和特征提取研究

基于全覆盖粒计算模型的文本表示和特征提取研究

ID:35181921

大小:2.85 MB

页数:68页

时间:2019-03-21

基于全覆盖粒计算模型的文本表示和特征提取研究_第1页
基于全覆盖粒计算模型的文本表示和特征提取研究_第2页
基于全覆盖粒计算模型的文本表示和特征提取研究_第3页
基于全覆盖粒计算模型的文本表示和特征提取研究_第4页
基于全覆盖粒计算模型的文本表示和特征提取研究_第5页
资源描述:

《基于全覆盖粒计算模型的文本表示和特征提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学硕士研究生学位论文基于全覆盖粒计算模型的文本表示和特征提取研究摘要随着大数据时代的到来产生海量的文本数据资源,文本挖掘面临从按秒激增的文本中探求有价值信息的艰巨任务。文本表示模型和文本特征提取是文本挖掘领域的重要研究方向,能够智能地挖掘文本中的信息是文本挖掘领域的迫切需求。粒计算是人工智能领域中一门挖掘海量信息的新理论。本文寻求基于粒计算理论的文本表示模型和特征提取算法来挖掘海量文本信息是一种有益的尝试。基于LDA(LatentDirichletAllocation)的文本主题模型是建立在统计

2、理论上的一种文本表示模型,其中关键词是表征主题语义的基本特征。LDA可以将某个主题下生成概率大的关键词提取出来,而这些关键词对于表征该主题未必重要。鉴于此,本文提出了一种基于集合论的文本表示模型,即文本的全覆盖粒计算模型(FullCoveringGranularComputingModelofTexts,FCGMT),并在此基础上提出一种基于全覆盖粒计算模型的重要关键词提取算法,利用全覆盖的约简思想对LDA提取的关键词计算其重要度,从而选出表征该主题语义的关键词。用复旦大学语料库、搜狗新闻语料和网络抓取的

3、实时语料三类型语料库做实验,与基于TFIDF的关键词提取算法和基于LDA的关键词提取算法做比较,证明本文算法的有效性。本文的主要研究内容有:1、在全覆盖粒计算模型的基础上设计文本的全覆盖粒计算模型表示方I太原理工大学硕士研究生学位论文法,基于LDA主题模型的训练获得候选词,然后根据覆盖粒计算模型理论,找到语料库、文档、主题、候选词与论域、论域中的点、覆盖、覆盖元之间的一一对应关系,构建出文本的“主题-候选词-文档”全覆盖粒计算模型,给基于FCGMT的重要关键词提取算法提供理论依据。2、提出全覆盖粒的约简算

4、法的一种改进方法,优化了全覆盖粒计算模型中属性约简的过程,针对文本特征的多维性,特征的属性重要度具有多样性并不是单纯的1和0,重新定义了属性重要度的度量方法。并通过重要关键词提取实验证明粒的约简的改进算法的有效性。3、设计了一种基于文本的全覆盖粒计算模型的关键词提取算法,首先在文档预处理和主题模型训练后得到候选词,然后利用全覆盖粒计算约简算法进行候选词权重的计算,通过实验分析找到候选词重要度的阈值的合理取值,从而提取出关键词。与两种经典的关键词提取算法进行比较,使用三种类型的语料库做实验,实验结果表明本文

5、算法提取的关键词能较好的表征文档主题。关键词:文本表示模型,粒计算,全覆盖,重要关键词提取II太原理工大学硕士研究生学位论文RESEARSHONTEXTREPRESENTATIONANDFEATUREEXTRACTIONBASEDONTHEFULLCOVERINGGrCMODELABSTRACTTheeraofbigdatawitnessesthegenerationofvastamountsoftextdataresources,thetextminingfacesthedauntingtaskofse

6、archingvaluableinformationfromthesefast-growingtextsdata.Textrepresentationmodelandtextfeatureextractionareimportantresearchfieldsandminingtextmessageintelligentlyisurgentneedforthetextmining.Granularcomputingisanewtheoryinthefieldofartificialintelligence

7、forminingmassofinformation.ThisdissertationaimstoseekthetextrepresentationmodelandfeatureextractionalgorithmsbasedonGranularComputingtheorytominelargetextcorpus.LatentDirichletAllocation(LDA)isatopicmodelbasedonstatisticsrepresentation,wherethekeywordsast

8、hebasicfeaturescanexpressthesemanticoftopics.LDAcanextractkeywordswithhighprobability,buttheymaynotbeimportantforthetopics.Thisdissertationproposesatextrepresentationmodelbasedonsettheory,namedthefullcoveringgranula

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。