欢迎来到天天文库
浏览记录
ID:28606600
大小:351.00 KB
页数:10页
时间:2018-12-11
《语言信息处理文本分类报告》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、.语言信息处理项目作业名称:文本分类的研究与应用学院:计算机专业:计算机科学与技术班级:2010级4班小组成员:谢宝娣2120101205王怡鸥2120101202万德鹏2120101193指导教师:鉴萍二〇一一年一月-..摘要本文简要分析并介绍了文本分类问题的相关知识。首先,介绍了文本分类的整体框架;然后,详细分析了两种常用的文本分析方法——KNN方法和朴素Bayes方法的基本原理与适应场合;之后,通过实验结果验证了这两种分类方法在文本分类问题中的可行性;最后,对未来文本分类的发展方向提出有益的展望。关键词:文本分类;文本特征提取;kNN分类方法;朴素Baye
2、s分类方法AbstractThethesisanalyzesandintroducestheproblemoftextclassificationknowledgebriefly.First,itdescribestheoverallframeworkoftextclassification.Then,itanalyzesthebasicprinciplesandthesuitablesituationsoftwocommontextanalysismethodswhichareKNNmethodandNaiveBayesmethod.Inaddition,it
3、provesthefeasibilityofthetwoclassificationmethodsintheresearchoftextclassificationbytheresultofexperiments.Finally,itmakesameaningfuloutlookonthefuturedirectionoftextclassification.Keywords:TextClassification;TextFeatureExtraction;kNNclassification;NaiveBayesclassification1引言Internet
4、技术的发展与成熟,使得人们可获得的信息越来越多。面对海量信息,,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法,它作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义。现在,文本分类问题已成为数据挖掘领域中一个重要的研究方向。国外文本数据分类的研究始于20世纪50年代末,H.P.Luhn在这一领域进行了开创性的研究,他首先将词频统计的思想用于文本数据分类中[1]。1960年M
5、aron、Kuhn在JoumalofACM上发表了有关文本数据分类的第一篇论文“OnRelevance,ProbabilisticIndexingandInformationRetrieval”[2]。1963年Borko等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究。-..目前,文本分类方面的文献也非常丰富,常见于信息检索、机器学习、知识挖掘与发现、模式识别、人工智能、计算机科学与应用等各种国际会议及相关的期刊或杂志。国内文本数据分类研究起步较晚,始于20世纪80年代初期。我国文本分类的研究大体上经历了可行性探讨、辅助分
6、类、自动分类系统三个发展阶段。本次项目作业的任务目标就是按照文本分类的一般过程和整体框架实现对文本的自动分类,本系统使用的语料库是搜狗语料库。2文本分类的整体框架文本自动分类是分析待定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。[3]文本分类的一般包括了文本预处理、文本特征提取、分类算法的选择、分类结果的评价与反馈等过程,本节主要介绍文本分类的整体框架,如图2-1所示。图2-1文本分类的整体框架2.1文本预处理任何原始数据在计算机中都必须采用特定的数学模型来表示,目前存在众多的文本表示模型,如:
7、布尔模型,向量空间模型,聚类模型,基于知识的模型和概率模型等[4]。其中向量空间模型(VSM)具有较强的可计算性和可操作性,-..本节的文本预处理就是基于向量空间模型实现的。对于基于向量空间模型的文本预处理,主要由以下几个步骤来完成:1.中心分词;2.去除停用词;3.文本特征提取。下面主要针对这三个方面介绍如下。1.中文分词中文分词是对中文文本进行分析的第一个步骤,是文本分析的基础。自然语言处理技术在不断的发展中,现在的中文分词技术主要有以下几种:基于字符串匹配的分词技术、基于理解的分词技术和基于统计的分词技术。在本系统中,采用中国科学院计算机技术研究所研制出的
8、基于多层隐马模型的汉语词
此文档下载收益归作者所有