基于粗糙集与神经网络的中文文本分类研究与实现

基于粗糙集与神经网络的中文文本分类研究与实现

ID:34122002

大小:6.00 MB

页数:57页

时间:2019-03-03

基于粗糙集与神经网络的中文文本分类研究与实现_第1页
基于粗糙集与神经网络的中文文本分类研究与实现_第2页
基于粗糙集与神经网络的中文文本分类研究与实现_第3页
基于粗糙集与神经网络的中文文本分类研究与实现_第4页
基于粗糙集与神经网络的中文文本分类研究与实现_第5页
资源描述:

《基于粗糙集与神经网络的中文文本分类研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章绪论行测试,对文本分类的性能及系统整体性能进行分析和评估1.4本文组织结构本文共七章,其中各章主要内容如下:第一章绪论,指出本文选题的目的和意义,介绍了国内外的研究历史与现状,给出了本文的研究工作和组织结构第二章中文文本分类理论基础及相关算法,主要介绍了文本分类的基础理论,回顾了现今文本分类领域几个关键问题的常用解决方法第三章粗糙集和神经网络理论基础,详细介绍了粗糙集理论和人工神经网络技术,对它们的相关算法进行了详细的描述,指出算法的不足和改进方法,并分析两者相结合的优势第四章RS.BPNN中文文本分类系统中的关键技术研究,这部分是本论文的重点内容,它详细的介绍了RS.

2、BPNN中文文本分类模型提出的背景过程及主要思路,给出了相应的算法详细的实现过程和计算步骤针对粗糙集属性约简的不足,对Johnson算法进行了改进为了加快神经网络的收敛速度,减少训练时间,采用LM算法和单输出网络拓扑结构优化神经网络分类器第五章RS.BPNN的中文文本分类的系统设计与实现,采用面向对象技术设计和实现了该系统第六章系统实验结果与分析,采用客观公正的语料库和通用的评估指标,对系统进行测试从实验数据上可以得出结论,RS.BPNN中文文本分类模型是可行的有效的第七章总结与展望,对本文的研究工作做了总结,对未来的工作进行了展蛆西北大学信息科学与技术学院硕士研究生论文4第

3、二章中文文本分类理论基础及相关算法文本分类作为数据挖掘的一个新主题,已经引起人们的极大兴趣文本分类技术的深入研究和在信息检索领域中的应用,进一步提高了信息检索的精度和效率本章主要介绍中文文本分类的基本概念文本分类的相关技术和算法,主要有文本表示中文分词特征选择算法权重算法和应用较为广泛的分类算法2.1文本分类基本概念文本分类的研究包括若干学科领域,包括语言学中的自然语言处理,数学领域的统计学等知识,以及计算机领域的模式识别人工智能等研究课题文本分类系统的任务是【2】:在预先定义的分类体系下,根据文本的内容自动将文本集合的每个文本归入某个类别,系统的输入是需要进行分类处理的大量

4、文本,而系统的输出是与文本关联的类别简单地说,文本分类就是对文档标以合适的类标签从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一对一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联可以形式化的表示为:f:二4寸B其中,4为待分类的文本集合,B为分类体系中的类别集合。文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律而建立的判别公式和判别规则对新文本进行分类时,根据总结出的判别规则,确定文本相关的类别一般来说,文档分类首先需要解决的问题是预先确定好文本的类别,并且对每个文本类别提供一批预

5、先分好类的文本(称为训练文本集)训练文本集的选择是否合适对文本分类的性能有较大影响训练文本集应该能够广泛地代表分类系统所要处理的客观存在的各个文本类中的文本一般而言,训练文本集应是公认的经人工分类的语料库2.2中文分词对于计算机来说,中文文本就是由汉字和标点符号等最基本的语言符号组成的字符串,由字构成词,由词构成短语,进而形成句段节章篇等语言结构在信西北大学信息科学与技术学院硕士研究生论文5第二章中文文本分类理论基础及相关算法息检索和分类中常采用宗词或短语作为特征项然而,汉语是以字为基本的书写单位,文本中词与词之间没有明确的分隔标记,而是连续的汉字串显而易见,自动识别词边界,

6、将汉字串分为正确的词串的汉语分词问题无疑是实现中文信息处理各项任务的基础与关键中文词语分析一般包括三个过程:预处理过程的词语粗切分切分排歧与未登陆词识别词性标注目前中文词语分析采取的主要步骤是:先采取最大匹配最短路径概率统诛全切分等方法,得到一个相对最好的粗分结果,然后进行排歧未登陆词识别,最后标注词性在实际系统中,这三个过程可能相互交叉反复融合,也可能不存在明显的先后次序可以将现在的分词算法分为三大类【6】:基于字符串匹配的分词方法基于理解的分词方法和基于统计的分词方法2.2.1基于字符串匹配的分词方法基于字符串匹配的分词方法又叫机械分词法,它是按照一定的策略将待分的汉字串

7、与一个(充分大的)词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配(MaximumMatchingMethod,简称MM法)和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法常用的几种机械分词方法有正向最大匹配法(由左到右的方向,FMM法);逆向最大匹配法(由右到左的方向,BMM法);最少切分(使每一句中切出的词数最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。