欢迎来到天天文库
浏览记录
ID:38671345
大小:961.42 KB
页数:69页
时间:2019-06-17
《中文文本自动分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、上海交通大学硕士学位论文中文文本自动分类算法研究姓名:王香港申请学位级别:硕士专业:电子与通信工程指导教师:倪佑生20071201上海交通大学硕士学位论文摘要中文文本自动分类算法研究摘要随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化
2、图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和AdaBoost等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和Adaboost分类器三个中文文本分类器,集成了一个实用性较强的实验系统。文中深入地分析了k近邻方法的不足,提出了改进的k近邻方法,
3、有基于隐含语义,特征聚合,强化文本中语义链属性因子与检索相结合的迭代近邻法四种方法进行改进,提高了分类器的性能。重点讨论了AdaBoost的相关问题。概述了boost理论的主要内容和应用情况。NaiveBayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive分类器作第I页上海交通大学硕士学位论文摘要为Boosting的基分类器需要解决的最大问题,就是如何破坏NaiveBayesian分类器的稳定性。提出了3种破坏NaiveBayesian学习器稳定性的方法。第一种方法改
4、变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。实验表明,三种分类器都适合于中文文本分类的需要,其中Adaboost分类器的分类性能最好。而朴素贝叶斯的简单快速,k近邻方法性能适中同样适用于中文文本分类的需要。关键词:特征选择,文本分类,贝叶斯分类器,k近邻分类器,Adaboost分类算法第II页上海交通大学硕士学位论文ABSTRACTASTUDYONCHINESETEXTCATEGORIZATI
5、ONABSTRACTWiththerapiddevelopmentandspreadofInternet,electronictextinformationgreatlyincreases.Itisagreatchallengeforinformationscienceandtechnologythathowtoorganizeandprocesslargeamountofdocumentdata,andfindtheinterestedinformationofuserquickly,exactlyandfully.Asthekeytec
6、hnologyinorganizingandprocessinglargemountofdocumentdata,textclassificationcansolvetheproblemofinformationdisordertoagreatextent,andisconvenientforusertofindtherequiredinformationquickly.Moreover,textclassificationhasthebroadappliedfutureasthetechnicalbasisofinformationfil
7、tering,informationretrieval,searchengine,textdatabase,anddigitallibraryandsoon.Researchontextclassificationanditsrelatedtechnologiesaredoneinthepaper.Fromtheangleofimprovingthespeed,precisionandstability,severalmethodsandtechniquesarepresented.Thethesissummarizessystematic
8、allysometechniquesaboutwordsegmentation,featureselection,categorizingalgorithmandperforma
此文档下载收益归作者所有