基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf

基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf

ID:50116982

大小:1.68 MB

页数:31页

时间:2020-03-05

基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf_第1页
基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf_第2页
基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf_第3页
基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf_第4页
基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf_第5页
资源描述:

《基于朴素贝叶斯的文本分类研究及其在微博分类中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于朴素贝叶斯的文本分类研究及其在微博分类中的应用李偲2015年6月中图分类号:O213.9UDC分类号:519.2基于朴素贝叶斯的文本分类研究及其在微博分类中的应用作者姓名李偲学院名称数学与统计学院指导教师王岩华申请学位理学硕士学科专业应用统计学位授予单位北京理工大学论文答辩日期2015年6月ResearchofChineseTextClassificationbasedonNaïveBayesianMethodandApplicationofMicrobloggingdataclassificationCandidateName

2、:LiSiSchoolorDepartment:InstituteofMachematicandStatisticsFacultyMentor:WangYanhuaChair,ThesisCommittee:Prof.XiaomingLiuDegreeApplied:MasterofScienceMajor:AppliedStatisticsDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下

3、进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要现在新浪微博的注册用户达到10亿以上,微博数据有着非常巨大的潜在价值,但是目前对这些大量的数据并没有进行管理分类,整体上还是比较杂乱的,很多有用信息都需要我们进行挖掘,本文通过朴素贝叶斯分类方法对微博数据进行分

4、类,数据处理的结果应该会有很大的商业价值。本文主要做的工作从宏观上来讲就是进行文本分类,从上世纪60年代开始,人们就开始研究文本分类,初期的文本分类主要是基于知识工程(KnowledgeEngineering),通过人工定义一些规则来给文本分门别类,这种方法不仅非常耗时耗力,而且要求人们必须对某一领域有足够的了解,才能够写出比较合适的规则。到上世纪90年代,网上电子文本使用的非常多,机器学习也很流行,基于机器学习的文本自动分类方法逐渐成为主流。文本分类的方法有很多种,其中朴素贝叶斯(NaïveBayes)分类器是当前被广泛接受的一种

5、文本分类方法,也是本文对微博数据进行分类所用的方法。本文首先对文本分类的过程及方法进行简单的介绍,并且细化到介绍一些特征提取方法,如文档频次方法、TF-IDF方法等,同时对基于朴素贝叶斯方法的文本分类原理进行详细的研究,并运用文档频次方法、TF-IDF两种提取特征方法对朴素贝叶斯分类器进行训练,将得到的结果进行比较,最后对文本分类这项研究内容进行展望。关键词:文本分类;朴素贝叶斯;分类器;特征提取I北京理工大学硕士学位论文AbstractNowSinamicrobloggingregisteredusersreachedmoreth

6、an1billion,thereisaverygreatpotentialvalueinmicrobloggingdata.Butnow,wedonottakemanagerofthelargeamountsofdata.Weneedtogettheseusefulinformation.weclassifythemicrobloggingdatabasedonNaiveBayes.Theresultwillproduceahugecommercialvalue.Wemainlyintroducethetextclassificat

7、ioninthearticle.Theresearchontextclassificationcouldbetrackedbacktothe1960s.TheearlytextclassificationismainlybasedonKnowledgeEngineering,whichcostsmuchmoretimeandworktoclassifythetextbymanuallydefinedrules,andtowriteappropriaterules,sufficientknowledgeofaparticularfie

8、ldshouldbehad.In1990s,withtheabundantappearanceoftheon-linetextofinternetandrisingofmachinelearning,Theautomaticmetho

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。