基于文本内容的自动分类系统的研究与实现

基于文本内容的自动分类系统的研究与实现

ID:36666243

大小:3.01 MB

页数:63页

时间:2019-05-13

基于文本内容的自动分类系统的研究与实现_第1页
基于文本内容的自动分类系统的研究与实现_第2页
基于文本内容的自动分类系统的研究与实现_第3页
基于文本内容的自动分类系统的研究与实现_第4页
基于文本内容的自动分类系统的研究与实现_第5页
资源描述:

《基于文本内容的自动分类系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、内蒙古大学硕士学位论文基于文本内容的自动分类系统的研究与实现摘要随着Internet的迅速发展,网络信息不断膨胀,为了提供高效、准确的信息服务,我们需要对网络中纷繁复杂的信息进行合理的组织与分类。目前,搜索引擎对于在Internet网上查找信息是非常有用的。但是,这个自动的信息检索工具的能力是有限的,搜索引擎的用户界面表达也是有限的。真正的搜索引擎不但能够找到信息,而且能够提供尽可能少的内容。本论文以文本信息处理为背景,从理论和应用的角度对文本信息的分类、聚类方法进行了较为深入的研究。主要内容包括文本信息的描述、特征提取和文本的分类。在论文中,我们提出了一个基于自动化的信息分

2、类。对于信息的分类不是按照严格的规则,而是按照先前的样本进行分类。论文分为两个部分:第一个部分,我们提出了文本分类文法,以及这些文本分类方法是如何对文本进行分类,并给出了相应的算法;在第二部分,我们给出文本分类的类定义,开发出了基于朴素贝叶斯分类文法的分类器。它能够在不同的环境中使用,可以作为大型系统的嵌入部分或者作为一个独立文本分类系统。关键词:文本分类,统计分类,聚类,特征提取,朴素贝叶斯分类基于文本内容的自动分类系统的研究与实现THERESEARCHANDIMPLEMENTATIONOFTEXTCATEGORIZATIONABSTRACTAlongwiththedeve

3、lopmentofInternet,networkinformationincreasesrapidly.Inordertomaketheinformationservicemoreefficientandprecise,itisimportantto脚侃informationinInternetorganizedandclassifiedreasonably.TodaysearchenginesisaninvaluabletoolwhenlookingforinformationontheInternet.Stillthepowerofautomatictoolsforin

4、formationretrievalislimited.Theuserinterfaceofsearchengineshavelimitedexpressiveness.Commonsearchengines面notonlyreallyfindinformation,butalsolimitthehugespaceofbillionsofcontent.Thisthesisfocusesontextinformationprocessinginthenetworkandinvestigatesclusteringandclassificationapproachestotex

5、tinformationbyintegratingtheorywithpractice.Whatareinvestigatedconcernwithtextinformationdescriptionandfeatureextracting,classifyingtext,inthisthesis,weshowaninformationclassifierforautomaticretrieval.Weshowwaystoclassi厅informationnotbasedstrictrules,butanpreviousexamples.丁histhesisis邓爪访协tw

6、opartsbthefirstparts,weshowhowmethods助textclassificationcanbeadaptedtotaskandalgorithms.Inthesecondpartwedefineclassforclassi尔ngtextanddevelopclassificationsystembasedonnaiVebayesclassifier.Beflexibleenoughtobeusedinalargevarietyofenvironments,bothasanembeddedcomponentinlargersystemsandasst

7、andingalonetextclassificationprogramKeywords:textclassification,statisticalapproachestotextcategorization,clustering,featureextracting,naivebayesclassifier内蒙古大学硕士学位论文第一章绪论1.1文本分类研究背景和意义文本自动分类系统是为全文检索的服务而产生。全文检索系统必须操纵大量的数据,其文本信息库可能是相当庞大。同时用来表示文本内容的词汇数量又是成

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。