中文文本分类方法研究

中文文本分类方法研究

ID:34848046

大小:1.48 MB

页数:30页

时间:2019-03-12

中文文本分类方法研究_第1页
中文文本分类方法研究_第2页
中文文本分类方法研究_第3页
中文文本分类方法研究_第4页
中文文本分类方法研究_第5页
资源描述:

《中文文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得——(注:如没有其它需要特别声明的,本栏可空)或其它教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:荔拓导师签字:学位论文版权使用授权书本学位论文作者完全了解兰墩有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权兰墩可以

2、将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:馨彦钐导师签字:签字日期.2。叩年箩月肜日签字目期.20。绎J月/泸山东师范大学硕士学位论文1.1研究背景和意义第一章绪论随着互联网的迅速普及和发展、在线信息资源的日益增多,人们已经从信息资源匮乏的时代过渡到了信息资源极为丰富的数字优时代。面对海量的在线信息资源,人们很难迅速有效的找到真正所需要的信息。因此,如何合理地和有效地组织和管理这些信息,已经逐渐成为信息处理领域中一个十分重要的研究课

3、题。传统地,我们是依靠人工的方法对网页进行分类的,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。很明显,随着网页信息容量的快速增长,仍然依靠人工的方式来进行网页分类将会耗费大量的人力和物力,这是非常不现实的。由于文本分类是组织和管理信息的有力手段,它可以在较大程度上解决目前网上信息杂乱无章的现象,使得用户更容易更准确地定位所需要的信息。因此,对文本的分类是必要的,也是必需的。这就使褥对文本自动分类的研究成为了一个日益重要的研究领域,并且它还逐步与搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。.1.2国内外

4、研究的历史与现状按照人们解决文本分类闻题的切入点的不同,文本分类可分为基于自然语言理解的文本分类和基于统计数学的文本分类。当然在实际应用中使用的方法大都是这两种方法的结合。文本分类的处理对象是文本,而文本是以自然语言的形式出现的,因此,试图把文本分类建立在自然语言理解的基础之上是很自然的事情。然而事实并非如此,由于自然语言的复杂性,想把自然语言中的~切规则用知识的形式表示出来几乎不可能,这条途径事实上是相当困难的。因此,一方面,人们继续跟随着自然语言处理技术的发展,试图建立更为理想的基子知识库的分类系统;另一方面,人们另辟蹊径开拓了一条新的文本分类

5、的途径,邸把文本分类建立在统计数学的基础之上,用统计的方法从文本的字频、词频等相关元素中提取文本的特征,再建立相应的数学模型以实现分类。国外对文本分类的研究始于20世纪50年代末,H。P.Lutm首先将词频统计思想焉于文本分类,在该领域进行了开创性的研究。1960年,Maron在JournalofASM上发表了有关自动分类的第一篇论文《∞relevance,probabilisticindexingandinformationretrieval)),其后许多学者在这一领域进行了卓有成效的研究工律。从20世纪60年代直到20世纪80年代末,这期间最有

6、效的文本分类系统一直是由专家人山东师范大学硕士学位论文工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团为路透社开发的Construe系统【l】,它主要是由专业人员编写了一些分类规则来指导分类,在路透社的部分语料库上它的效果非常好,平均准确率和召回率大约都可达到90%,但是在其他的应用领域采用Construe系统将会消耗大量的人力和物力。这种自动分类器构造方法的缺点是知识获取瓶颈的存在。它必须要为领域专家获取的知识和知识工程师的知识表示之间架起桥梁,二者缺一不可,如果这种分类器被转到完全不同的领域,工作必须得重新开始。90年代初期,基于机

7、器学习的分类技术开始取代基于知识工程的方法成为文本分类的主流技术。这种算法通过归纳文本集的特征自动创建一个分类器,这些文本集合事先被领域专家人工地分类到类集的各个类中,分类器可作为一个规则决定文本是否属于类。如果类集C被更新,或者系统要应用于其他不同的领域,只需要重新构造一个人工分类文本集合,通过机器学习,自动地构造一个分类器。显然由于这种分类方法不再需要知识工程师和领域专家的介入,节约了大量的人力和物力,同时也加快了分类系统的建立速度。近年来,研究者们针对机器学习的技术进行了大胆的探讨,提出了多种分类模型和分类算法,如基于向量空间模型的Rocch

8、io分类算法【21及其一系列的改进算法、K近邻算法(KNN)[3-6l、决策树(DecisionTree)【61、朴素贝叶

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。