基于bayes方法的文本分类器的研究与实现

基于bayes方法的文本分类器的研究与实现

ID:34118655

大小:1.47 MB

页数:50页

时间:2019-03-03

基于bayes方法的文本分类器的研究与实现_第1页
基于bayes方法的文本分类器的研究与实现_第2页
基于bayes方法的文本分类器的研究与实现_第3页
基于bayes方法的文本分类器的研究与实现_第4页
基于bayes方法的文本分类器的研究与实现_第5页
资源描述:

《基于bayes方法的文本分类器的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文基于Bayes方法的文本分类器的研究与实现姓名:陈剑敏申请学位级别:硕士专业:计算机系统结构指导教师:张玉芳20070420重庆大学硕士学士论文中文摘要摘要从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为

2、主流,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果。目前,Internet信息急剧膨胀,文本分类有了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。朴素贝叶斯(NaiveBayes)分类器是当前使用比较广泛的一种文本分类方法,它应用统计理论进行文本分类。在朴素贝叶斯分类方法中,有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另

3、外由于文本的特殊性,相关的特征项可能会产生新的语义信息,而在用传统的向量空间模型表示文本时该信息极有可能丢失。本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨,包括文本信息的表示、提取,文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处,在训练文本时,对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性,然后对相关程度较高的特征进行适当的合并处理。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:这个改

4、进的文本分类系统可以获得更好的分类效果。关键字:文本分类,独立性假设,相关性,互信息重庆大学硕士学位论文英文摘要ABSTRACTThetaskofdataminingisminingusefulinformationfromamassofdata.Text'sminingisbecomingoneofthefocusesofdataminingwiththerapiddevelopmentoftheIntemetbecausethattextisthemaininformationcarrierofwebpages.Th

5、etextclassificationisthebaseandcenteroftext'smining.Theautomaticmethodoftextclassificationbasedonmachinelearningwasbecomingmainstreamafter1990sstagebystage.ithasshortperiod,hi曲efficiency,andhi曲consistencyoftheresults.Thoughautomatictextclassificationhassomanymeri

6、ts,theaccuracyofitsresultsisnotsatisfiedtillnow.TextclassificationgetsawidestageintheageoftheinformationinInternetincreasingrapidly.Itisconfrontedwithopportunitiesandchallenges,andthestudyfocuseshowtoimprovetheaccuracyofthetextclassificationresult.NaiveBayesclass

7、ifierisprovedtobeoneofthemosteffectiveclassifierandbeusedwidelyItappliesstatisticaltheorytotextclassification.Thereisall”independencehypothesis”inBayesianclassifiermethod:examplesoftheemergenceofeachattributeareindependentfromtheexamplesofotherattributesappear,th

8、epracticalapplicationofsuchconditionsarenoteasilysatisfied,andbecauseofthespecialversionoftherelatedcharactersmayhavenffcrmeaninginaspecialtext;Firstofail,thhp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。