基于无监督聚类和朴素贝叶斯分类的文本分类方法研究

基于无监督聚类和朴素贝叶斯分类的文本分类方法研究

ID:33130869

大小:1.84 MB

页数:57页

时间:2019-02-21

基于无监督聚类和朴素贝叶斯分类的文本分类方法研究_第1页
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究_第2页
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究_第3页
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究_第4页
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究_第5页
资源描述:

《基于无监督聚类和朴素贝叶斯分类的文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Y‘872072分赉蟮:TPtSl街级:睢忙代码:学吁:憩√▲东岁,番硕士学位论文10422200211611Shai'ldongUniversityMaster’sThesiS论文题m基于无监督聚类和朴素贝叶斯分类的文本分类方法研究作者姓名祝壁蛰专业一.让茸瓤薮往与理论指导教师姓名睾业技术职务葛盎盎剖越授一2005年4』j5Il山东大掌硕士学位论文摘要在现实世界中,我们可获得的大部分信息都是以诸如书籍、研究论文、新闻、数字图书、Web页面及电子邮件等各种形式出现的.这些形式的信息通常称为文本信息,它们由来自各种数据源的大量文

2、档组成,主要存储在文本数据库中。文本数据库中存储最多的数据是半结构化数据,它既不是完全无结构的也不是完全结构化的。据统计,80%以上的数据都是以非完全结构化的形式存在,而且由于电子形式的信息量也正在迅猛增长,使得文本数据库得到迅速的发展。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的有用模式和隐藏的信息,也需要对文本信息进行数据挖掘,这就是文本挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。通过数据挖掘,可以从大量的数据中提取或发现知识。模式则是知识的一种表述形式。所以无论是

3、在数据挖掘中,还是在文本挖掘中,模式挖掘都是其中的一个重要环节。分类和聚类是两种常见模式挖掘的方法。无监督文本聚类算法(UTC)是一种把无监督聚类算法(uc)用于文本聚类的方法。算法通过指定聚类半径R,分别对每类文本进行聚类并获得聚类中心;然后,把聚类中心作为对文本的预分类:即对任意文本,计算其与各聚类中心的距离;找到与其距离最近的聚类中心后,该聚类中心所对应的类就是文本的所属类。该方法的特点是分类速度快,但准确率较低。朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,

4、成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。论文在分析无监督文本聚类和朴素贝叶斯分类特点的基础上,提出了一个对不带任何类别标志的文本进行准确分类的方法。采用向量空间模型(VSM)来对待分类的文本进行表示,即将文本表示成在行维向量空间中的一个点。指定聚类半径R,利用无监督文本聚类方法进行聚类,获得文本类别标志集合和聚类的正例中心和反例中心,然后把聚类结果中的那些处在包含正例中心区域内的文本作为训练样本来对朴素贝叶斯分类器进行训练,最后再将在聚类结果中处山东大学硕士学位论文在模糊区域的文本交给训练好的朴素贝叶斯分类器

5、进行重新分类。该方法避免了对文本的人工预分类,而且得到了较好的分类结果,提高了分类精度。本文所做工作:1.描述了文本挖掘的一般过程,着重介绍了模式挖掘中的聚类和分类技术.2.分析了无监督文本聚类和朴素贝叶斯分类方法的特点,将无监督文本聚类方法和朴素贝叶斯分类方法相结合,提出了一个对不带任何类别标志的文本进行准确分类的方法UNBTC。3.根据文本挖掘的一般过程,构建了一个基于向量空间模型的文本自动分类原型系统。4.在构建的文本自动分类原型系统中实现了算法UNBTC,验证了其对不带任何类别标志的文本进行准确分类的有效性。关键词:文

6、本挖掘;无监督文本聚类;朴素贝叶斯分类:向量空间模型;特征选择ABSTRACTIntherealisticworldthemostinformationwegotisinvariousformofthebook,theresearchpaper,thenewspapeLthedigitalbook,theWebpagesande-mailandSOon.Theinformationaboveiscommonlycalledtextinformation.Theyaremadeofagreatdealofdocumentstha

7、tcomefromvariousdatasourcesandaremainlystoredinthetextdatabase.ThemostofinformationstoredinthetextdatabaseissemistructuredatathatiSneitherunstructurednorstructuredcompletelUItisreportedthat80percentofdataisintheformofsemistructuredata.Andthetextdatabaseisintherapidd

8、evelopmentbecauseoftheswiftriseoftheelectronicinformation.Dataminingshouldbeappliedtothetextinformationinordertoextracttheusefulpatterntha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。