欢迎来到天天文库
浏览记录
ID:35176741
大小:3.07 MB
页数:57页
时间:2019-03-20
《基于代价敏感的快速多标记文本分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、单位代码:10293密级;么开*>、\?乂考巫《化硕女給A哪论文题目:基于代价敏感的快巧《标巧文本分类算法研究孚号1213012109姓名邵燕导师胡海幢专业学位类别工程硕±类型全日制专业(领域)电子与巧信了指论文提交日期二〇_六年四月南京邮电大学学位论文原创性声明本人声明所电交的学位论义足我个人在诗师指导下进行的研化工作妓取得的研究成果。尽我所知,除/文中特别加示注和致谢的地雇外,论义中不包含其他人己经发表或撰气过的研光成果,也不包
2、含为获得南成邮电大学或其它教巧机构的学位或证书而使用过的材料。与我-同工作的同志对本巧巧巧做的巧何贡献均B在论文中化/明飾的说明并表示/谢意。?本人学位论文及涉及相关资料若有不实,切化关的法律贵巧愿意承担。柳究生签名:杂'n期:h南京邮电大学学位论文使用授权声明本人授软陶京邮化大学可保留并向围家巧关部口或化构送交论文的巧印件巧电子文巧;允许论文被迄阅和惜阅;可W将学化论文的全部或部分内容编入有乂数据库进巧檢索!可W巧用影印-、缩印或片描等巧制手段保任、汇编本学位论文。木文化T文档的内容和纸质论文一。(理的内容相论文的公布包
3、巧巧)火究化。敏刊授权南京邮电学研院办涉密学位论文巧解密后适用本授权书。研:名穿师签^究化签验名少_'i〇部FastMulti-labelTextClassificationAlgorithmBasedonCostSensitiveThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYanShaoSupervisor:Prof.HaifengHuApril2016摘要近十年来,随着人类进入信息时代,
4、数据信息不断呈指数式增长,对海量信息数据进行有效而快速的管理与检索成为新时期的挑战。其中,文本分类作为一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。为了解决文本分类问题,人们提出了多种解决方案,具体有传统的监督学习、非监督学习、多标记学习等新的学习模型。然而,面对海量文本信息,如何快速有效的进行多标记分类,还是一个亟待解决的问题。本文以应用多标记学习方法解决多标记文本分类为目标,结合文本预处理、文本变换、特征选择等技术。并且将局部敏感哈希技术融入到多标记学习算法中,提出了一种基于代价敏感的快速多标记文本分类算法
5、,可以快速进行近邻查找,提高多标记学习文本分类的效率。并且,对于文本分类中的类不平衡问题,本文利用代价敏感的学习算法进行文本分类,可以提高算法的准确度,最后,在实际数据的基础上,通过仿真验证了提出算法的有效性。关键词:文本分类,多标记学习,局部敏感哈希,代价敏感IAbstractDuringthepastdecade,withtheexponentialgrowthofinformationontheInternet,processingofmassivemountsofdatahasbecomethekeychallenge.Textclassifica
6、tionasanimportantintelligentprocesstechnologyhasbeenwidelyappliedintheapplicationssuchasinformationfilter,informationretrievalanddatabasetechnology.Variousfeasiblemethodsareproposedtosolvetheaboveissues.However,howtoretrievethemassivetextinformationisstillanopenproblem.Inthisartic
7、le,weaimtoprovideanefficientsolutiontothemulti-labeltextclassification,withthecombinationoftextpreprocessing,texttransformationandfeatureselection.Thefastmul-labeltextclassificationbasedoncostsensitiveisproposedforefficienttextclassificationandretrieval,whichutlizesthelocalitysens
8、itivehashingmethodtofastnearestne
此文档下载收益归作者所有