浅谈基于信息增益的中文特征提取算法研究

浅谈基于信息增益的中文特征提取算法研究

ID:34834568

大小:2.74 MB

页数:57页

时间:2019-03-12

浅谈基于信息增益的中文特征提取算法研究_第1页
浅谈基于信息增益的中文特征提取算法研究_第2页
浅谈基于信息增益的中文特征提取算法研究_第3页
浅谈基于信息增益的中文特征提取算法研究_第4页
浅谈基于信息增益的中文特征提取算法研究_第5页
资源描述:

《浅谈基于信息增益的中文特征提取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于信息增益的中文特征提取算法研究重庆大学硕士学位论文学生姓名:陈小莉指导教师:张玉芳副教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二OO八年四月AnImprovedApproachtoWeightingChineseTermsUsingInformationGainAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofComputerbyChenXiaoliSupervisor:Asso

2、ciateProf.ZhangYufangMajor:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2008重庆大学硕士学位论文中文摘要摘要随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是要快速、准确地定位需要的信息却越来越困难。如何在海量的信息中提取有价值的信息成为信息处理的一大热点,各种信息组织和处理的技术被提出来,文本分类技术就是其中之一。文本分类能够处理大量的文本,较大程度解决信

3、息资源杂乱无章的现状,方便用户准确定位所需信息。文本分类涉及文本预处理、中文分词、特征选取等多个过程。其中特征词权重算法和分类算法一直是文本分类过程中的研究热点,算法的优劣将直接影响分类的效果。本文将特征词权重算法和分类算法作为重点研究对象,针对它们存在的不足进行改进。本文主要工作如下:①分析权重公式TFIDF和TF.IDF.IG。②对TF.IDF.IG的进一步分析,发现TF.IDF.IG对TFIDF的改进并不彻底,TF.IDF.IG只考虑了词语在文档集合中的分布情况,没有考虑词语在不同层次的分布情况对权重的影响。本文将从类别层次和文

4、档层次两个层面去改进TF.IDF.IG,提出新的特征词权重计算公式。③对现有分类算法KNN进行分析,针对其在决定测试样本的类别时,把测试样本的k个最近邻等同看待的缺点,本文将模糊数学的隶属度函数引入KNN算法来改进其类别属性函数,从而区别对待测试样本的k个最近邻。④为了验证本文改进的TF.IDF.IG方法的正确性和KNN算法用于中文文本分类的效果,本文将完成两个实验:1)将改进的TF.IDF.IG权重算法和TF.IDF.IG对比实验;2)将改进的KNN算法和原始KNN分类结果比较。实验结果证明,本文改进的TF.IDF.IG算法是成功的

5、,正确的,并且是可行的;改进KNN算法也是同样有效的。关键词:特征提取,特征向量,向量空间模型,KNN分类算法I重庆大学硕士学位论文英文摘要ABSTRACTPeoplecaneasilygetmoreandmoreknowledgealongwiththerapiddevelopmentofthenetworkandinformationtechnology.However,itismoreandmoredifficulttolocatethespecificknowledgewhichpeopleneedquickly.Animpo

6、rtantresearchisfocusedonhowtoextractvaluableinformationfromthemassiveinformation.Agreatdealoftechnologyinorganizingandprocessinginformationoccurstothepeople,textclassificationisoneofthem.Textclassificationcanprocessmassivedocumentsandsolvetheproblemofinformationdisorder

7、toagreatextent,andisconvenientforusertofindtherequiredinformationquickly.Textclassificationmainlyincludespre-process,split-word,featureselectionandsoon.AlgorithmoffeaturetermweightingbasedonVSMandalgorithmofclassificationarealwaystheresearchhotspotinthetextclassificatio

8、n.Thispaperprimarilystudiesonalgorithmoffeaturetermweightingandalgorithmofclassification.Duetothelimitations,t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。