欢迎来到天天文库
浏览记录
ID:33717779
大小:2.35 MB
页数:50页
时间:2019-02-28
《流形学习及其在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、合肥工业大学硕士学位论文流形学习及其在文本分类中的应用姓名:范继利申请学位级别:硕士专业:管理科学与工程指导教师:李锋刚201204流形学习及其在文本分类中的应用摘要随着计算机能力的日益增强和存储容量的增长,大规模的数据获取更为方便和普遍,同时也产生了新的问题。在很多领域中,如文本挖掘、生物特征认证、图像分析和计算机视觉、信息检索中的文本分析和计算生物学等,获得的是高维数据,这样极有可能导致“维数灾难”的出现。近年来,流形学习成为了机器学习领域的一个热点研究方向,流形学习期望从高维数据空间中寻找数据隐含的规律性与结构
2、,被广泛用于高维数据降维,是一种非线性数据降维方法。文本分类作为信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。由于文本数据的非结构化特点,进行文本表示时,特征向量高达几万维甚至于几十万维。高维的特点会大大增加冗余特征信息,从而导致分类的准确度下降。数据降维能够减少文本向量的维数,而使特征向量能更好地代表文本或者类别特征。本文假设文本向量空间存在一个潜在的文本流形,将文本看做是这个流形上抽样的点,将流形学习应用在文本分类的文本预处理过程中,提出了一种基于ISOMAP的Bagging文
3、本分类算法,比较完整地描述了相关理论基础及算法的具体流程,并对ISOMAP算法进行了增量式改进,提出了一种基于增量流形学习的Bagging文本分类算法,并进行了实验比较和分析,实验证明了流形学习在文本分类中的应用,能有效提高文本分类的性能。关键词:流形学习;文本分类;数据降维;增量学习ManifoldLearningAndItsApplicationInTextClassificationABSTRACTAsthecomputerab订ity’sgrowingandstoragecapacitygrowing,iti
4、smoreconVenientandcommontogetthebigscaleofdata,atthesametimenewproblemisappearing.Inmanyfields,suchastextmining,biologicalcharacteristicsauthentication,imageanalysisandcomputerVision,infbrmationretrieValofthetextanalysisandcomputationalbiology,whatwegetishighdi
5、mensionaldata,thisislikelytoleadto’’dimensiondisaster”.Inrecentyears,manif01dlearningbecomesahotresearchdirectioninthefieldofmachinelearning,whichexpectsto行ndtheinnerlawandstructurefromthespaceofhighdimensionaldata,whichiswidelvusedindimensionreduction.Itisakin
6、dofnonlineardatadimensionreduotionmethod.TIextclassificationasthetechnologybaseofthefieldssuchasinf.ormationretrieval,searchengines,textdatabase,thedigitallibrary,hasabroadprospectofapplication.Fortheunstructuredtraitofthetextdata,whoseeigen:vectorashighassomet
7、enthousandevendozensoftenthousanddimensionswhenberepresented.Thetraitofhighdimensionalwillgreatlyincreaseredundantfeatureinfbrmation,thusleadingtothedeclineofclassificationaccuracy.Datadimensionreductioncanreducethedimensionsofthetextvector,andmaketheeigenVecto
8、rcanrepresenttextorcategOrytraltbetter.Thispaperassumesthatthereisapotentialtextmanif.oldintextVectorspace,onwllichatextisasamplingpoint.Thispaperusesthemanifoldleamingforte
此文档下载收益归作者所有