基于特征选择的多标签分类算法研究

基于特征选择的多标签分类算法研究

ID:36567561

大小:2.65 MB

页数:59页

时间:2019-05-12

基于特征选择的多标签分类算法研究_第1页
基于特征选择的多标签分类算法研究_第2页
基于特征选择的多标签分类算法研究_第3页
基于特征选择的多标签分类算法研究_第4页
基于特征选择的多标签分类算法研究_第5页
资源描述:

《基于特征选择的多标签分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ONMULTI-LABELCLASSIFICATIONALGORITHMSBASEDoNFEATURESELECTIoNThesisSubmittedtoZhejiangNormalUniversityForthedegreeofMasterofScienceinEngineeringbyJinhaiLi(ComputerSoftwareandTheory)ThesisSupervisor:ProfessorFarongZhongandShichaoZhangMay,2013基于特征选择的多标签分类算法研究f幽鳓㈣㈣册删Y2420202摘要~随着网络的普及和计算机技术的发展,网上积

2、累了大量的的数据。如何从海量数据中提取有用的信息或知识,并应用到相关领域成为了一个重要的研究课题。数据挖掘就是这样一种信息处理技术。数据挖掘的任务主要包括分类、聚类、回归、预测等,其中数据分类是数据挖掘研究领域中最活跃的研究内容之一。依据样本拥有标签的多少,可以将分类问题划分为单标签分类问题和多标签分类问题。自21世纪以来,现实应用领域中出现了越来越多的多标签数据,如何对这些多标签数据进行有效分类成为一个亟需解决的课题。与传统的单标签分类相比,多标签分类允许数据样本同时拥有多个标签。现实生活中存在许多多标签分类问题。比较常见的问题,如图书分类,可以将一本图书分类到社会、科学、经济和

3、体育等多个主题中,一本图书可以同时属于多个类别,而且许多图书都是属于多个类别的;在音乐分类中,~首歌曲可以同时归为民歌、爱情歌曲等类别;在自动图像注释中,一幅图像可以拥有多个主题,如:树林、天空、海滩和草原等。面对这种新的情况,传统的数据分类技术是无法解决的。因此,多标签分类技术便应用而生。目前,解决多标签分类问题的方法主要分为问题转化方法和算法转化方法。然而多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能会更优。其中,特征选择是降维的有效手段之一。特征选择不仅能有效去除冗余信息、降低噪

4、声数据的干扰,而且还能提高学习效率和分类模型性能。因此,它一直是数据挖掘、模式识别和机器学习等多学科交叉研究领域的一个重要课题。但是传统的特征选择技术只处理单标签实例数据(Single.1abelData),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出了~种改进的多标签数据分类方法。该方法是了解多标签分类模型构造机理的一种尝试。本文围绕传统的特征选择技术和当前多标签数据分类技术中存在的问题,展开研究,提出了一种改进的多标签数据分类方法。本文的主要研究内容和贡献如下:●ELA转换方法【31根据每个多标签数据@,,K)的标

5、签将其分解成吲个单标签数据@,,zj)/IY,I,其中乃∈E,IY,I是指标签的个数。该方法在多标签文本分类中取得较好效果。我们将ELA转换方法推广应用到音乐分类、基因分类等新领域中,也取得了很好的效果。●多标签数据分类和传统的单标签数据分类一样,面临着“维灾难”的问题。因此,若先对多标签数据进行降维,再进行分类,这样获得的多标签分类模型其分类性能更好。然而传统的特征选择技术只处理单标签实例数据(Single.1abelData),而目前多数多标签数据分类方法又不进行特征选择。因此本文将传统的单标签特征选择方法和多标签数据分类相结合,提出一种改进的的多标签数据分类方法。●为验证我们

6、提出的算法的有效性,在多个基准数据集上进行实验。实验结果表明:基于特征选择的多标签分类算法在分类性能等方面要明显好于现有的一些多标签分类算法。关键词:数据挖掘;多标签分类;特征选择;条件互信息oNMUl月I-LABELCLASSIFICATIoNALGoIUTHMSBASEDONFEATURESELECTIONABSTRACTWiththenetworkpopularizationandthedevelopmentofcomputertechnology,therearelargeamountsofdataaccumulatedontheweb.Howusefulinformati

7、onorknowledgeisextractedfromthesedataandthenappliedtotherelatedfieldshasbecomeanimportantresearchtopic.Dataminingisoneofsuchinformationprocessingtechnologies.Thetaskofdataminingmainlyincludesclassification,clustering,regressionandforeca

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。