文本特征抽取方法的研究

文本特征抽取方法的研究

ID:33682967

大小:3.19 MB

页数:63页

时间:2019-02-28

文本特征抽取方法的研究_第1页
文本特征抽取方法的研究_第2页
文本特征抽取方法的研究_第3页
文本特征抽取方法的研究_第4页
文本特征抽取方法的研究_第5页
资源描述:

《文本特征抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着计算机技术的不断普及,人类的知识正通过互联网这个平台不断的实现资源共享。但是,由于互联网上的资源是非常庞大、无组织且不断更新的,人们想要从浩瀚的互联网资源中及时地提取出自己关注的内容是非常困难的。因此,文本挖掘技术应运而生。而文本特征抽取,是提高文本挖掘效率和正确率的根本前提。粗糙集理论是20世纪发展起来的一种新的处理模糊性和不确定性知识集合的数学工具。在信息系统分析,数据挖掘等领域具有很高的应用价值。本文重点介绍了粗糙集理论的基本概念、基本方法。分析了当前比较流行的文本特征抽取的方法,从算法的特征约简率和文本正确分类率

2、两个方面,对当前算法进行了比较与分析。在此基础上,本文根据文本特征约简的根本目的,以及粗糙集理论关于决策属性相对于条件属性的依赖程度的基本原理,提出了新的文本特征属性重要度的计算方法,该文本特征属性重要度是基于特征权重在文本类内方差和类间方差而计算得到的。这种文本特征属性重要度的计算方式,可以根据文本特征属性的分类能力确定该特征属性的重要度。在文本预处理阶段,本文的基于WordNet将文本词条向量提升为文本概念向量,解决了“同义词”问题。为了进一步提高文本特征的约简率,本文提出了属性相关度分析方法,该方法可以确定两个特征属性相对

3、文本分类所起到作用的近似程度,并在此基础上剔除相关度较高的属性,从而提高属性约简率。结合WordNet、新的特征属性重要度定义,以及属性相关度分析理论,本文设计了一套完整的文本特征约简算法(TextFeatureExtractionbased011RoughSet,TFERS),该算法充分提高了文本特征的约简率和文本正确分类率。最后,本文在Reuters.21578测试集合上对经典的LSI算法、SongboTan等人的DB2算法、以及本文提出的TFERS算法进行了对比实验,并分析实验结果数据,每种方法的优劣及其形成的原因。为文本

4、特征抽取算法的进一步研究积累了一定的经验。关键字:文本挖掘WordNet特征约简属性重要度属性相关度AbstractWiththepopularizationofcomputertechnology,knowledgeissharingthroughtheIntemetplatform.However,becausetheresourcesontheInternetareverylarge,unorganizedandconstantlyupdated,itisdifficulttoextractthecontentsofone

5、’Sconcernsintime.Therefore,thetextminingtechnologycameintobeing.Andthetextfeatureextractionisthefundamentalpremiseoftextminingtechnology,whichCanimprovethereductionrateandprecision.RoughSettheoryisdevelopedinthe20thcentury.Itisamathematicaltoolwhichcarldealwimambigui

6、tyanduncertaintyknowledgeset.Andthereishighapplicationvalueininformationsystemsanalysis,dataminingandotherareas.ThispaperintroducesthebasicconceptsandbasicmethodsinRoughSettheory,comparesandanalysessomepopularfeatureextractionmethodsfromreductionrateandprecision.Onth

7、isbasis,anewattributesignificancemethodisproposedinaccordancewiththecharacteristicsofthefundamentalpurposeofreduction,aswellasthedependenceofdecisionattributeaccordingtotheconditionattributeinRoughSet.Inthismethod,theattributesignificanceiscalculatedwiththevariancebe

8、tween·topicsandthevariancewithin-topic.Thestrongpointofthismethodisthattheattributesignificanceisdefinedwithitsdiscernibilitycapabi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。