基于贝叶斯的文本自动分类的研究和实现毕业设计

基于贝叶斯的文本自动分类的研究和实现毕业设计

ID:24929677

大小:256.00 KB

页数:36页

时间:2018-11-17

基于贝叶斯的文本自动分类的研究和实现毕业设计_第1页
基于贝叶斯的文本自动分类的研究和实现毕业设计_第2页
基于贝叶斯的文本自动分类的研究和实现毕业设计_第3页
基于贝叶斯的文本自动分类的研究和实现毕业设计_第4页
基于贝叶斯的文本自动分类的研究和实现毕业设计_第5页
资源描述:

《基于贝叶斯的文本自动分类的研究和实现毕业设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计(论文)毕业设计(论文)任务书题目基于贝叶斯的文本自动分类的研究和实现专业学号姓名主要内容、基本要求、主要参考资料等:近年来随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,而需要信息的人还没有特别方便的工具去从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘正是解决这一问题的一个方法。本课题研究基于贝叶斯的文本分类系统,可以用于以下领域和系统中:企业知识门户、信息增值服务、智能搜索引擎、数字图书馆、情报分析、信息安全和过滤、电子商务

2、系统。文本自动分类不需人工干预的自动分类技术,有效提高非结构化信息资源的加工效率。利用朴素贝叶斯分类文法的分类器,分析已经手动分类的文本,根据文本内容计算分类条件概率,再利用训练好的分类器分析未分类的文本,根据分类器算出的所属领域概率最大的进行分类。本课题任务要求:1)学习关于朴素贝叶斯分类文法,查找相关的资料以供参考;2)实现朴素贝叶斯分类文法的分类器;3)人工对样本数据进行分类和标注;4)利用贝叶斯分类文法的分类器,利用样本进行训练,然后对分类数据进行自动分类;5)根据分类结果,调整分类阈值,弥补分类器

3、的不足。6)根据实验数据和结果,按时完成毕业设计论文。主要参考资料:贝叶斯分类算法的论文和资料,未分类文本语料。完成期限:指导教师签章:专业负责人签章:年月日31毕业设计(论文)毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体

4、,均已在文中作了明确的说明并表示了谢意。作者签名:     日 期:     指导教师签名:     日  期:     使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名:     日 期:     

5、31毕业设计(论文)摘要随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对信息进行组织和管理。为了减轻这种负担,人们开始研究使用计算机对文本进行自动分类。文本自动分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域。随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,已逐渐成为处理和组织大量文档数据的关键技术。通过分析kNN(kNeare

6、stNeighbor)、朴素贝叶斯(NaiveBayes)、SVM(SupportVectorMachine)三种文本分类方法的优点和缺点,发现朴素贝叶斯分类器速度极快,具有最小的出错率,可在线化实现等优点,并对该分类方法进行了理论分析和实验对比,实验结果表明这种文本分类模型是高效的可行的。本文首先介绍了基于贝叶斯的文本自动分类的研究和实现的背景,并且叙述了相关问题的概念知识,包括文本分类和中文分词等;其次,对相关的理论知识做了讲解,包括先验概率、条件概率、贝叶斯理论、贝叶斯算法等;第三,对如何实现文本分类

7、进行了概述以及整体讲解,通过给出流程图,可以更直观的了解实现的过程;第四,详细介绍了实现本课题所用到的重要工具,包括JBuilder2007开发工具和全文检索引擎Lucene以及Java平台;第五,在前期工作基础上,给出了详细的实现过程,包括单文本分类和多文本分类以及相关具体操作;最后,通过多次大量重复试验,得出了实验数据,在此通过表格的形式,直观的给出了实验结果。本课题研究基于贝叶斯的文本分类系统,根据所讨论的算法构造了贝叶斯文本自动分离器,并做出详尽的训练测试,从最终的试验结果可以看出,贝叶斯算法简单、

8、性能优越,即使在不考虑贝叶斯假设的前提下,仍然取得良好的分类性能。关键字:文本自动分类,贝叶斯分类,分类文本语料库。31毕业设计(论文)AbstractWiththecomputertechnologyandtherapiddevelopmentofcommunicationtechnology,peoplecangetmoreandmoredigitalinformation,butitalsoneedstod

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。