欢迎来到天天文库
浏览记录
ID:35070524
大小:6.34 MB
页数:56页
时间:2019-03-17
《基于贝叶斯算法的多语言文档分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、"-?朵姆衙货一….於学校代码:10285学号;20134327108襄1牡聲SOOCHOWUNIVER别TY...耗.-基于贝叶斯算法的多语言文档分类.-f.PilincumentclassMultualdoificationbasedon:_gjf/Baesianalorithm'yg為■-研究生姓名'.指导教师姓名糞声蓉专业名称计算机技术研究方向计算机图像处理与识别^^
2、所在院部苏州大学计算机科学与技术学院论文提交日期2016年9月^K基于贝叶斯算法的多语言文档分类中文摘要基于贝叶斯算法的多语言文档分类中文摘要随着时代的变迁,信息技术得到了快速的发展且趋于成熟。人们对于信息的获取途径不再是通过报纸或者口口相传的方式,而是基于各种媒体的方式,如电视、电脑、手机等途径。面对信息量爆炸式增长,人们对于快速获取有用信息的要求不断提高。如何尽可能有效地组织和管理信息变得尤为重要。传统的单一语言文本分类系统在处理这些信息分类的问题上已经远远不能达到人们的要求
3、。因此,如何实现海量文本信息高效准确的多语言文档分类显得尤为重要。本文在阐述文本分类的发展历程基础上,通过比较分析贝叶斯算法、K-近邻算法和Rocchio算法,结合多语言特点,设计并实现了基于贝叶斯算法的多语言文本分类器的系统设计与实现,并对系统性能进行了简单测试,结果表明它能实现分类功能。关键词:文本分类,贝叶斯算法,多语言作者:朱娟指导老师:龚声蓉教授IAbstractMultilingualdocumentclassificationbasedonbayesianalgorithmMulti
4、lingualdocumentclassificationbasedonBayesianalgorithmAbstractAstimegoesby,informationtechnologyhasrapidlydevelopedandtendstogetmatured.Thewayforpeopletoobtaininformationisnolongeronlythroughnewspapersorthroughthewayofmouth-to-mouthtalking.Instead,peop
5、lenowacquireinformationthroughvarietiesofmedia,suchasTVs,computers,mobilephonesandsoon.However,withthemassdata,peoplehaveraisedtheirexpectionshowtogetusefulinformationinaveryshorttime.Thusitseemsmoreurgentwhetherinformationcanbeeffectivelyorganizedand
6、managed.Sincethetraditionalsystemofsingle-languagetextclassificationcannotmeetthedemandsofpeoplewhenclassifyinginformation,soitbecomesespeciallyimportanttodomultilingualtextclassification,whichcanclassifymassinformationaccuratelyandquickly.Afterstatin
7、gthecourseofdevelopmentoftextclassificationandmakingcomparisonsamongtheBayesianalgorithm,theK-nearestneighboralgorithmandtheRocchioalgorithm,thispaperdesignsandimplementsthesystemofmultilingualtextclassifierbasedontheBayesianalgorithm.Afterthesystempe
8、rformancehasbeentestedroughly,itturnsoutthatthissystemcandotheclassification.Keywords:textclassification,NaiveBayes,multi-languageWrittenbyZhuJuanSupervisedbyGongShengrongII目录第一章绪论...........................................................11.1
此文档下载收益归作者所有