探析中文文本分类研究

探析中文文本分类研究

ID:34799007

大小:1.60 MB

页数:65页

时间:2019-03-11

探析中文文本分类研究_第1页
探析中文文本分类研究_第2页
探析中文文本分类研究_第3页
探析中文文本分类研究_第4页
探析中文文本分类研究_第5页
资源描述:

《探析中文文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文中文文本分类研究姓名:翁金象申请学位级别:硕士专业:计算机系统结构指导教师:马军20070405山东大学硕士学位论文摘要文本分类和聚类是现代搜索引擎设计的重要计算,也是在数据处理、数据挖掘等应用中的关键计算.因此对文本分类和聚类技术研究不仅具有重要的理论意义,而且具有广阔的应用领域。随着国际互联网的普及和目前针对Web网页的信息检索技术的研究,对文本分类和聚类的研究已经不仅仅是文本文件,对Web网页的分类和聚类已经成为新的研究热点。。本论文在研究对一般文本的分类和聚类算法以及实现技术的同时,也专门研究

2、对Web网页的分类和聚类算法及实现技术。本文的主要贡献是:I)深入地研究了对文档特征的提取方法和文档分类方法,通过比较,分析了各种方法的优缺点。在此基础上,对传统的支持向量机分类法进行了改进。对传统的支持向量机中的核函数进行了组合的研究,提出了由径向基核函数(RBF)和多项式核函数(POLY)组合成的新的核函数。实验表明支持向量机在组合后的核函数下能取得更好的分类效果。2)基于对传统的特征选取方法和文本分类方法的分析,针对Web网页具有半结构化的特点,提出了一种结合结构信息和内容的对Web网页按层次进行分类的方法,克服了

3、传统分类中轻视或忽略了Web网页的结构信息的不足.其主要思路是利用Web网页的结构信息对网页进行大类层次上的粗分,然后利用网页中的全文信息再进行细分。实验结果表明,该层次分类方法能有效地提高分类的精度和效率。3)本文对多分类器的组合问题进行了初步研究,提出了用NaiveBayes组合两种分类器对Web网页进行协调分类的方法,实验结果显示这是协调超文本分类中多种分类器的一种有效方法。与只用单种方法对超文本进行分类相比,综合分类法有效地提高了分类的正确率。本论文的组织如下:在第1章中介绍了文本自动分类在国内外的研究现状。第2

4、章给出了文本分类的基本概念、经典的理论模型、特征提取技山东大学硕士学位论文术、分类模型以及我们改进的支持向量机模型,并给出我们算法和K.最近邻(KNN)算法以及朴素贝叶斯算法的比较。第3章介绍了我们基于分类法、Web网页的结构信息和内容信息的层次分类方法;并通过实验验证我们算法的有效性。第4章讨论了多分类器的组合问题的研究。第5章总结了全文。关键词:文本分类:Web网页分类;特征选取;K-最邻近法;支持向量机II山东大学硕士学位论文ABSTRACTTextcategorizationandclusteringaretwo

5、importancecomputationsinthedesignofwebsearchengines,whicharealsothecrucialcomputinginapplications,e.g.dataprocessing,dataminingetc,Sotheresearchonthetextcategorizationandclusteringisnotonlyimportantintheorybutalsoinpractice.SincetheInternetisthemainsourceforpeopl

6、etogetmessageforthetimebeing,thestudyoftextcategorizationandclusteringnotonlylimitsongeneraltextfiles,butalsofocusesonwebpages.Thereforethisthesisdiscussesthetextcategorizationandclusteringonbothcommontextdocumentsandwebpages.ThemaincontributionsofthisthesisCanbe

7、listedasfollows:1)Athoroughstudyonthefeatureselectionmethodsandtextcategorizationmethodsoftextdocumentiscarriedon.Basedonthestudy,theadvantageofeachmethodisanalyzed.Andthenthetraditionalalgorithmofsupportvectormachine(svM)isimprovedbyutilizinganewkernelfunctionco

8、mbinedbyRBFandPOLY.TheexperimentshowsthatnewSVMgetsbettercategorizationresults.2)Consideringthedisadvantageoftraditionfeatureselection,anewwayforwebpagesclassi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。