基于自然语言处理的文本分类分析与研究

基于自然语言处理的文本分类分析与研究

ID:13097007

大小:233.74 KB

页数:57页

时间:2018-07-20

基于自然语言处理的文本分类分析与研究_第1页
基于自然语言处理的文本分类分析与研究_第2页
基于自然语言处理的文本分类分析与研究_第3页
基于自然语言处理的文本分类分析与研究_第4页
基于自然语言处理的文本分类分析与研究_第5页
资源描述:

《基于自然语言处理的文本分类分析与研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号:密级:公开学号:2008179单位代码:10407硕士学位论文论文题目:基于自然语言处理的文本分类分析与研究研专究业方名向称数据挖掘计算机应用技术研究生姓名导师姓名、职称张春燕刘发升教授2011年6月3日江西·赣州摘要当今,随着信息技术不断向前发展,在机器学习这门计算机学科中,有关模式识别的理论知识已经日趋成熟,同时应用到了许多领域,其中一个重要的研究方向是基于统计的自然语言处理。由于互联网的兴起,基于自然语言表述的电子文本信息越来越多,在这么多的电子文本信息中,基于自然语言的信息处理的一个最大目标是怎样有效地获取和管理这些信息。

2、对于提出的这些问题需要对自然语言进行研究和其相关应用,文本分类在这里显得特别重要,它是作为信息检索等问题的基础。文本分类主要分为两个阶段,分别采用了自然语言处理、机器学习、模式识别、文本挖掘技术来实现。因此,文本分类在理论研究上的价值体现在对这些技术的推动。文本分类能够有效的提高网上信息检索的效果,不仅是改进信息获取模式的重要方面,也是内容安全的基础部分。因此分类性能的好坏已经成为关注的焦点,研究文本分类任务的理论和工程应用,将具有重要意义。在现有的研究成果上,本论文对文本分类及其相关技术做了一些研究。首先介绍了文本分类技术的研究现状及该课题研究意义;接着介绍

3、了文本分类的过程和在这个过程中所用到的相关技术,主要对中文分词方法、特征选择方法和文本分类算法做了研究;然后介绍文本分类设计的整个过程,在预处理的过程中为了对三字长交集型歧义字段消除歧义及对停用词的处理,对最大匹配分词法进行了改进,同时在基于KL散度的特征选取法基础上并且结合了特征项的TFIDF权值,这样选取出的特征项能比较准确的表达文本内容,为分类打好基础,最后对贝叶斯算法、简单向量距离分类法和KNN(K最近邻居)算法进行了比较,找出其分类效果最佳并结合时间复杂度选出一种实用性比较好的算法。关键词:自然语言处理;文本分类;数据挖掘;特征选取IIAbstrac

4、tNowadays,withtheinformationtechnologydevelopment,machinelearningandpatternrecognitionincomputersciencearemoreandmorematureandwidelyappliedtomanyareas,oneoftheimportantresearchdirectionisbasedonthestatisticsofnaturallanguageprocessing.DuetotheriseoftheInternet,theelectronictextinfor

5、mationbasedonnaturallanguagedescriptionisexploding,theinformationprocessingbasedonnaturallanguageisoneofthebiggesttargethoweffectivetheseinformationacquisitionandmanagement.Thesequestionsraisedalotofresearchandapplicationsonnaturallanguage,ofwhichtextcategorizationasthebasisforinfor

6、mationretrievalproblems,isespeciallypaidattention.Textcategorizationmainlydividedintotwostages,usingnaturallanguageprocessing,machinelearning,patternrecognition,textminingtechnologytorealize.Therefore,thevalueoftextclassificationtheoryresearchreflectedinthesetechnologies.Textclassif

7、icationcaneffectivelyimprovetheeffectofonlineinformationretrieval,notonlytoimprovetheinformationofacquisitionmodes,butalsoanimportantaspectofcontentsecurity.Thereforeclassifiedtheperformancehasbecomethefocusofattention,theresearchoftextclassificationtaskandengineeringapplication,wil

8、lbehavingtheimporta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。