欢迎来到天天文库
浏览记录
ID:36666243
大小:3.01 MB
页数:63页
时间:2019-05-13
《基于文本内容的自动分类系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、内蒙古大学硕士学位论文基于文本内容的自动分类系统的研究与实现摘要随着Internet的迅速发展,网络信息不断膨胀,为了提供高效、准确的信息服务,我们需要对网络中纷繁复杂的信息进行合理的组织与分类。目前,搜索引擎对于在Internet网上查找信息是非常有用的。但是,这个自动的信息检索工具的能力是有限的,搜索引擎的用户界面表达也是有限的。真正的搜索引擎不但能够找到信息,而且能够提供尽可能少的内容。本论文以文本信息处理为背景,从理论和应用的角度对文本信息的分类、聚类方法进行了较为深入的研究。主要内容包括文本信息的描述、特征提取和文本的分类。在论文中,我们提出了一个基于自动化的信息分
2、类。对于信息的分类不是按照严格的规则,而是按照先前的样本进行分类。论文分为两个部分:第一个部分,我们提出了文本分类文法,以及这些文本分类方法是如何对文本进行分类,并给出了相应的算法;在第二部分,我们给出文本分类的类定义,开发出了基于朴素贝叶斯分类文法的分类器。它能够在不同的环境中使用,可以作为大型系统的嵌入部分或者作为一个独立文本分类系统。关键词:文本分类,统计分类,聚类,特征提取,朴素贝叶斯分类基于文本内容的自动分类系统的研究与实现THERESEARCHANDIMPLEMENTATIONOFTEXTCATEGORIZATIONABSTRACTAlongwiththedeve
3、lopmentofInternet,networkinformationincreasesrapidly.Inordertomaketheinformationservicemoreefficientandprecise,itisimportantto脚侃informationinInternetorganizedandclassifiedreasonably.TodaysearchenginesisaninvaluabletoolwhenlookingforinformationontheInternet.Stillthepowerofautomatictoolsforin
4、formationretrievalislimited.Theuserinterfaceofsearchengineshavelimitedexpressiveness.Commonsearchengines面notonlyreallyfindinformation,butalsolimitthehugespaceofbillionsofcontent.Thisthesisfocusesontextinformationprocessinginthenetworkandinvestigatesclusteringandclassificationapproachestotex
5、tinformationbyintegratingtheorywithpractice.Whatareinvestigatedconcernwithtextinformationdescriptionandfeatureextracting,classifyingtext,inthisthesis,weshowaninformationclassifierforautomaticretrieval.Weshowwaystoclassi厅informationnotbasedstrictrules,butanpreviousexamples.丁histhesisis邓爪访协tw
6、opartsbthefirstparts,weshowhowmethods助textclassificationcanbeadaptedtotaskandalgorithms.Inthesecondpartwedefineclassforclassi尔ngtextanddevelopclassificationsystembasedonnaiVebayesclassifier.Beflexibleenoughtobeusedinalargevarietyofenvironments,bothasanembeddedcomponentinlargersystemsandasst
7、andingalonetextclassificationprogramKeywords:textclassification,statisticalapproachestotextcategorization,clustering,featureextracting,naivebayesclassifier内蒙古大学硕士学位论文第一章绪论1.1文本分类研究背景和意义文本自动分类系统是为全文检索的服务而产生。全文检索系统必须操纵大量的数据,其文本信息库可能是相当庞大。同时用来表示文本内容的词汇数量又是成
此文档下载收益归作者所有