流形学习及其在文本分类中的应用

流形学习及其在文本分类中的应用

ID:33717779

大小:2.35 MB

页数:50页

时间:2019-02-28

流形学习及其在文本分类中的应用_第1页
流形学习及其在文本分类中的应用_第2页
流形学习及其在文本分类中的应用_第3页
流形学习及其在文本分类中的应用_第4页
流形学习及其在文本分类中的应用_第5页
资源描述:

《流形学习及其在文本分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、合肥工业大学硕士学位论文流形学习及其在文本分类中的应用姓名:范继利申请学位级别:硕士专业:管理科学与工程指导教师:李锋刚201204流形学习及其在文本分类中的应用摘要随着计算机能力的日益增强和存储容量的增长,大规模的数据获取更为方便和普遍,同时也产生了新的问题。在很多领域中,如文本挖掘、生物特征认证、图像分析和计算机视觉、信息检索中的文本分析和计算生物学等,获得的是高维数据,这样极有可能导致“维数灾难”的出现。近年来,流形学习成为了机器学习领域的一个热点研究方向,流形学习期望从高维数据空间中寻找数据隐含的规律性与结构

2、,被广泛用于高维数据降维,是一种非线性数据降维方法。文本分类作为信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。由于文本数据的非结构化特点,进行文本表示时,特征向量高达几万维甚至于几十万维。高维的特点会大大增加冗余特征信息,从而导致分类的准确度下降。数据降维能够减少文本向量的维数,而使特征向量能更好地代表文本或者类别特征。本文假设文本向量空间存在一个潜在的文本流形,将文本看做是这个流形上抽样的点,将流形学习应用在文本分类的文本预处理过程中,提出了一种基于ISOMAP的Bagging文

3、本分类算法,比较完整地描述了相关理论基础及算法的具体流程,并对ISOMAP算法进行了增量式改进,提出了一种基于增量流形学习的Bagging文本分类算法,并进行了实验比较和分析,实验证明了流形学习在文本分类中的应用,能有效提高文本分类的性能。关键词:流形学习;文本分类;数据降维;增量学习ManifoldLearningAndItsApplicationInTextClassificationABSTRACTAsthecomputerab订ity’sgrowingandstoragecapacitygrowing,iti

4、smoreconVenientandcommontogetthebigscaleofdata,atthesametimenewproblemisappearing.Inmanyfields,suchastextmining,biologicalcharacteristicsauthentication,imageanalysisandcomputerVision,infbrmationretrieValofthetextanalysisandcomputationalbiology,whatwegetishighdi

5、mensionaldata,thisislikelytoleadto’’dimensiondisaster”.Inrecentyears,manif01dlearningbecomesahotresearchdirectioninthefieldofmachinelearning,whichexpectsto行ndtheinnerlawandstructurefromthespaceofhighdimensionaldata,whichiswidelvusedindimensionreduction.Itisakin

6、dofnonlineardatadimensionreduotionmethod.TIextclassificationasthetechnologybaseofthefieldssuchasinf.ormationretrieval,searchengines,textdatabase,thedigitallibrary,hasabroadprospectofapplication.Fortheunstructuredtraitofthetextdata,whoseeigen:vectorashighassomet

7、enthousandevendozensoftenthousanddimensionswhenberepresented.Thetraitofhighdimensionalwillgreatlyincreaseredundantfeatureinfbrmation,thusleadingtothedeclineofclassificationaccuracy.Datadimensionreductioncanreducethedimensionsofthetextvector,andmaketheeigenVecto

8、rcanrepresenttextorcategOrytraltbetter.Thispaperassumesthatthereisapotentialtextmanif.oldintextVectorspace,onwllichatextisasamplingpoint.Thispaperusesthemanifoldleamingforte

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。