基于机器学习的文本分类技术研究进展

基于机器学习的文本分类技术研究进展

ID:33326917

大小:420.40 KB

页数:12页

时间:2019-02-24

基于机器学习的文本分类技术研究进展_第1页
基于机器学习的文本分类技术研究进展_第2页
基于机器学习的文本分类技术研究进展_第3页
基于机器学习的文本分类技术研究进展_第4页
基于机器学习的文本分类技术研究进展_第5页
资源描述:

《基于机器学习的文本分类技术研究进展》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,Vol.17,No.9,September2006,pp.1848−1859http://www.jos.org.cnDOI:10.1360/jos171848Tel/Fax:+86-10-62562563©2006byJournalofSoftware.Allrightsreserved.∗基于机器学习的文本分类技术研究进展11+1,2苏金树,张博锋,徐昕1(国防科学技术大学计算机学院,湖南

2、长沙410073)2(国防科学技术大学机电工程与自动化学院,湖南长沙410073)AdvancesinMachineLearningBasedTextCategorization11+1,2SUJin-Shu,ZHANGBo-Feng,XUXin1(SchoolofComputer,NationalUniversityofDefenseTechnology,Changsha410073,China)2(SchoolofMechantronicsEngineeringandAutomation,NationalUniver

3、sityofDefenseTechnology,Changsha410073,China)+Correspondingauthor:Phn:+86-731-4513504,E-mail:bfzhang@nudt.edu.cnSuJS,ZhangBF,XuX.Advancesinmachinelearningbasedtextcategorization.JournalofSoftware,2006,17(9):1848−1859.http://www.jos.org.cn/1000-9825/17/1848.htmAbs

4、tract:Inrecentyears,therehavebeenextensivestudiesandrapidprogressesinautomatictextcategorization,whichisoneofthehotspotsandkeytechniquesintheinformationretrievalanddataminingfield.Highlightingthestate-of-artchallengingissuesandresearchtrendsforcontentinformationp

5、rocessingofInternetandothercomplexapplications,thispaperpresentsasurveyontheup-to-datedevelopmentintextcategorizationbasedonmachinelearning,includingmodel,algorithmandevaluation.Itispointedoutthatproblemssuchasnonlinearity,skeweddatadistribution,labelingbottlenec

6、k,hierarchicalcategorization,scalabilityofalgorithmsandcategorizationofWebpagesarethekeyproblemstothestudyoftextcategorization.Possiblesolutionstotheseproblemsarealsodiscussedrespectively.Finally,somefuturedirectionsofresearcharegiven.Keywords:automatictextcatego

7、rization;machinelearning;dimensionalityreduction;kernelmethod;unlabeleddataset;skeweddataset;hierarchicalcategorization;large-scaletextcategorization;Webpagecategorization摘要:文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、

8、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.关键词:自动文本分类;机器学习;降维;核方法;未标注集;偏斜数据集;分级分类;大规模文本分类;Web页分类中图

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。