文本分类算法的分析与改进

文本分类算法的分析与改进

ID:46243880

大小:282.16 KB

页数:56页

时间:2019-11-22

文本分类算法的分析与改进_第1页
文本分类算法的分析与改进_第2页
文本分类算法的分析与改进_第3页
文本分类算法的分析与改进_第4页
文本分类算法的分析与改进_第5页
资源描述:

《文本分类算法的分析与改进》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一章绪论1.1背景介绍随着网络和信息技术的飞速发展,世界已经进入到一个信息时代,人们可获得的知识越来越多,但是面对具体的知识,要在这浩瀚的信息世界中快速获得却是很困难的。面对这一矛盾,人们想到了知识分类技术,这一技术的出现立即获得了人们广泛关注,同吋知识分类中的文本分类也成为了研究的热点。文本自动分类的目的是对文本集进行有序组织,把相似、相关的文本组织在一起。它作为知识的组织工具,为信息检索提供了更高效的搜索策略和更准确地查询结果,使得检索的查全率和准确率都得到了提高。传统的人工分类的做法存在较多弊端,不仅是耗费大量人力、物力和精力,而且存在分类结果一致性不高的问题。因而,构

2、造一个有效的文木分类系统是十分重要的。文本分类是一个活跃的科研领域,它是数据挖掘中一个重要的研究域,它经历了儿个不同的发展阶段。最先的文本分类主要是人工进行识别。1964年,MoSteller和wallacelm在鉴别文章作者身份的丁作中开创文本分类的新阶段,他们在分类时考虑了单词,句子长度,功能词的频率和词汇的差异等特征项。当前,虽然互联网上的信息载体呈多样化趋势,但仍以文本为主,文字仍是互联网上信息的主要来源,这使得近期的文本分类具有广泛的应用:抽取符号知识⑵、新闻分发⑴、排序电子邮件⑷、网页分类①、邮件分类以及信息过滤等等。采用文本分类技术可以建立起一个自动的文本分类系统

3、,相对于人工分类,自动分类系统具有以下特点:第一,高效率、高速度。自动分类的效率将是人工分类的百倍其至千倍,从而节约大量的人力物力。第二,较高的准确度消除了人为错误产生的可能。第三,良好的自适应性。可快速适应文本的更新及类别的变化,适应不同环境及需求。众多的研究者对文本分类系统,进行了深入的研究,提出了许多的统计方法和机器学习方法,并口在实验中有较好的表现。总之,文本分类已经成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。1・2国内外文本分类研究动态国外对于文木自动分类的研究开展较早,20世纪50年代末,H.P.Luhn对文木自动分类进行了开创性的研究,将词频统

4、计思想应用于文本自动分类⑹。1960年,Maro发表了关于自动分类的第一篇论文,随后,K.Spark、GSalton.R.M.Needham、M.E.Lesk以及K.S.Jones等学者在这一领域进行了很成功的研究。一般来说,文本自动分类主要经历了四个发展阶段:第一阶段是(1958—1964):研究文木自动分类的可能性;第二阶段是(1965—1974):进入文木自动分类的实验性阶段;第三阶段是(1975—1995):文本自动分类的实用性阶段;第四阶段是(1990至今):因特网文本自动分类研究阶段。国外较早的文木自动分类应用系统有卡内基集团为路透社开发的Chruch95系统,它能

5、对路透社成千上万的稿件进行自动分类,它是由专家定义一系列逻辑规则,这些规则包括如何把某一给定文本归类为某一预先制定的类别集合屮的一种或儿种类别;麻省理工(MIT)为白宫开发的邮件分类系统;徳国Oldenburg大学一个研究项目GERHARWI等。相对于国外文本分类的发展水平,直到1981年,侯汉清教授才对于计算机在文木分类工作中的应用作了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方而的概况⑺。此后,我国陆续研究出一批计算机辅助分类系统和自动分类系统。例如,广东省屮山图书馆的莫少强开发的计算机辅助图书分类系统、清华大学吴军硏制的自动分类

6、系统、山西大学刘开瑛等人开发的金融自动分类系统、东北大学图书馆的图书馆分类专家系统,上海交通大学王永成等研制的基于神经网络优化算法的中文文本自动分类系统。近期研究中比较突岀的是屮科院的屮文文本智多星分类器,它采用多种分类方法。由于中英文Z间存在较大差异,无法直接参照国外的研究成果,只有摸索进行,但随着中文信息处理技术特别是中文自动分词技术的日渐成熟,以此为基础的中文文本分类技术的研究得到了喜人的飞速发展,在短短20多年中也完成了从可行性探索到实用化阶段的转变。1・3本文主要研究工作木文研究了基于向量空间模型的文本分类的一个基本问题一文木特征选择和朴素贝叶斯独立性假设。主要工作总

7、结如下:1)在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法。在分析了常用的一些特征选择评价函数的基础上,提岀了一种新的评价函数,即互信息差值来提高所选特征子集的有效性。2)朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,影响它的分类性能。本文分析探讨了相关联特征项对文木分类性能的影响,提出了一种简易可行的改进方案,用互信息差值来考察特征项之间的相关性,对相关性高的特征采取适当的融合处理来达到提高文本分类效果的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。