基于类别概念的中文文本分类研究硕士学位论文

基于类别概念的中文文本分类研究硕士学位论文

ID:262876

大小:6.22 MB

页数:65页

时间:2017-07-15

基于类别概念的中文文本分类研究硕士学位论文_第1页
基于类别概念的中文文本分类研究硕士学位论文_第2页
基于类别概念的中文文本分类研究硕士学位论文_第3页
基于类别概念的中文文本分类研究硕士学位论文_第4页
基于类别概念的中文文本分类研究硕士学位论文_第5页
资源描述:

《基于类别概念的中文文本分类研究硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士研究生学位论文题目:基于类别概念的中文文本分类研究北京邮电大学硕士学位论文学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权

2、    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日北京邮电大学硕士学位论文声明独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢

3、意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)本学位论文不属于保密范围,适用本授权书。本人签名:日期:导师签名:日期:北京邮电大学硕士学位论文基于类别概念的中文文本分类

4、研究摘要网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺

5、点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。3北京邮电大学硕士学位论文向量空间模型是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现

6、正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。关键词:文本分类向量空间模型知

7、网类别概念3北京邮电大学硕士学位论文AStudyonCategoryConceptioninTextClassificationAbstractThedevelopmentofnetworkandtheopeningoftheInternetmakeitaomnidirectionalresourcestorehousestepbystep.Moreandmoreinformationaredeliveringtoeverywhereoftheworld,andmoreandmoreinformationarecongregatedininternet

8、.Attheviewpointofdevelopmentaltrend,networkwill

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。