欢迎来到天天文库
浏览记录
ID:34038683
大小:3.99 MB
页数:59页
时间:2019-03-03
《基于位置加权和特征贡献度的中文文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类编号:——密级:——单位代码:—100—65学号:121QQ坌QQQ窆天滓:J币苊大学研究生学位论文论文题目:基王僮量力日拯独挂延亟赵度的生文室奎佥娄巫究学生姓名:申请专业名称:研究方向:指导教师姓名:提交论文日期:兰i一跳一一讯一一L型避幽天津师范大学硕士研究生论文原创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得苤鲞塑整盘芏或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均
2、已在论文中作了明确的说明并表示了谢意。论文作者签名:砍掺.日期:矽侈年石月z日研究生学位论文使用授权说明(必须装订在提交学校图书馆的印刷本)本人完全了解天津师范大学关于收集、保存、使用研究生学位论文的规定,即:·按照学校要求向图书馆提交学位论文的印刷本和电子版本;·图书馆有权保存学位论文的印刷本和电子版,并通过校园网向本校读者提供全文与阅览服务。·图书馆可以采用数字化或其它手段保存论文;·因某种特殊原因需要延迟发布学位论文,按学位论文保密规定处理,·保密论文在解密后遵守此规定。论文作者签名:认糯,导师签名:亏日期:阳眵年易月2一日融爹天津师范大学硕士
3、学位论文摘要随着当今网络信息量的飞速增长,海量的网络文本数据也在呈现指数级增长,传统的人工分类方法显然已经不适用,文本分类技术应运而生。文本分类是在指定的分类系统下,依据待分类文本的特征判定其所属类别的过程。文本分类技术能快速而准确的帮助人们查找所需的信息,具有很大的应用价值。目前,针对文本分类技术的研究主要集中在以下三方面,文本表示、文本特征选择以及分类算法的改进。本文对文本分类技术进行了系统的介绍,在分析了各种特征提取技术之后,探索并提出了一种新的特征提取方法。该方法针对中文期刊类文本提出,结合文本结构和类别信息对传统特征提取算法加以改进,以期取
4、得更好的文本分类效果。本文针对期刊类文本的结构信息探讨了特征项的位置加权,对重要位置的特征项赋予较大权值,在一定程度上能够提升文本分类的准确性。本文对传统的TF.IDF算法进行了改进,TF.IDF算法是当今特征加权算法中应用较为广泛和经典的算法,但其自身存在一定的缺陷,针对多类文本分类时,TF.IDF算法忽略了文本特征项的类内和类间分布状态,因此进行特征加权时存在一定的误差,单纯对稀有的特征项赋予较大的权值,对更能区分文本类别的特征项赋予的权重过小。因此,本文结合了文本特征项的贡献度对TF.IDF算法进行了改进。本文通过多组对比实验验证了改进的特征提
5、取方法在中文文本分类上的有效性。实验结果通过多重评价指标进行分析,如查全率、查准率和F1值等,实验结果表明基于位置加权、结合特征贡献度的TF.IDF算法针对中文期刊类文本的分类结果优于传统的TF.IDF算法。关键词:文本分类;特征提取;位置加权;特征贡献度ABSTRACTWiththerapidgrowthoftheinformationintoday’Snetwork,rmssivetextdataincreasesexponentially.Apparemlytraditionalmanualtextclassificationmethodare
6、notapplicable,textclassificationtechnobgyemergeasthetimerequired.Textclassificationisaccordingtotextfraturestodetermineitscategoryunderthespecifiedclassificationsystem.Textclassificationhasgreatapplicationvaluetobe砸peoplegettheinformationquicklyandaccurately.Atpresent,textclass
7、ificationtechnologyfocusedonthefollowingthreear龃s:textrepresentation,textfeatureselectionandimprovesclassificationalgorithm.Thispaperanalyzestextclassificationsystem.Atteranalyzingvariousfeatureextractiontechnology,thispaperexpbresandproposesanewfeatt鹏extractionmethodwhichpropo
8、sedforperiodicaltext.Thismethodcombinestextstructmeand
此文档下载收益归作者所有