欢迎来到天天文库
浏览记录
ID:32504400
大小:4.51 MB
页数:63页
时间:2019-02-09
《基于双层结构和优序选择的多标签分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据绪论1绪论1.1研究背景2l世纪是一个信息爆炸的世纪,人类社会开始大量的产生、利用和交换数据。特别是移动终端设备、网络商务交易与社交平台的兴起更是为人们开启了一个“PB”级数据信息新时代。然而,浩瀚数据给人们带来便利的同时,也引发了人们的思考:如此丰富的数据资源,是否蕴含着不可估量的价值?如何提炼和挖掘这些海量数据隐藏的价值成为了迫切处理的问题,这就涉及到如今比较热门的研究领域一数据挖掘(DataMining,DM)。DM即是通过算法搜索的方式寻获隐藏于大量数据中的价值信息,以达到将高噪数据转变为精炼信息的目的。数据挖掘被广泛应用于各种领域,如股市风险、医学诊断、电信、生物遗传学和
2、入侵检测等等。随着对数据挖掘不断深入研究,大量的数据挖掘模型被提出。按挖掘任务的不同,数据挖掘模型可分为分类预测模型、回归预测模型、关联预测模型和聚类预测模型等等。其中,分类预测逐渐成为了挖掘技术中一个热门的研究方向,它主要是采用原始样本集来构建一个分类模型,并使用该模型对未知实例的类别信息进行预测。在传统的单类别预测中,任意样本实例仅隶属于一个类别。如语音识别,指纹识别等,实例与类别之间形成一一对应的关系。可是,在现实生活中,实例对象常常不止对应惟一标记,而可能对应多个标记。如图1.1中的(a)是一篇关于2008年中国奥运会的实况报道,单题目而言就可以将其归为“体育"类,也可以将其归为“
3、中国”类;若进一步从内容上分析,该报道或许还涉及了当前奥运会对中国在世界政治格局中的影响而将其归为“政治”类;再比如,对于图1.1中(b)图,既能将其归类于“夕阳”,也能将其归类于“山林”、“傍晚”甚至“村庄”。诸如此类的示例不计其数,某些蛋白质可同时拥有至少一个及以上的功能如“修复组织”、“催化酶”以及“蛋白质合成”。一首曲子可能会涵盖多种曲元素如“重金属”、“戏剧’’、“摇滚”以及“嘻哈”,等等。由此可见,只考虑单一、明确的实例对象的传统单标签分类学习框架不再适用于上述具有多个标记结构的对象实例。为了直观的表述多标签实例蕴含的多语义信息,给样本实例赋予合适的标签子集就成为了一种很自然的
4、方式。由此,一种致力于解决多标签分类的建模方法一一多标签分类(Multi.1abelLearning)应运而生。不难看出,多标签分类建模学习旨在找出与待测实例相对应的标签集合,即将所有合适的类别标签全部赋予未知示例。万方数据四川师范大学硕士学位论文(固)一篇新闻报道(b)一幅图图1.1多义性的两个例子早期,多标签分类的研究起源于文档归类,人们按照主题词对文档进行分类时发现,一篇文档涉及了多个主题,如果浅易地将其划分为一类,就不能很好地反映出文档的核心价值。多标签归类也因此成为了在文档归类中解决多义问题01121[31【41的研究热点。经过数十年来的发展,多标签分类技术己被广泛的应用于医疗诊
5、断【5】【61、物种遗传学‘71、推荐系统【8】【91、信息检索【10】【1l】【121、图像视频【13】【141等领域。近年来,在与机器学习相关的一流国际会议ECML/PKDD、CMU、ACL、NIPS、CIKM、COLING、AAAI、Interspeech、ICML、KDD、ICDM以及IJCAI上,对“多标签(multi.1abel/multilabel)”讨论频度持续增加,使得多标签分类成为机器学习中的热门研究方向,同时多标签分类的学习也引起了国际机器学习界权威刊物((MachineLearning))的重视。可见多标签分类的重要性越发的显著。1.2研究现状及问题随着多标签研究的
6、持续升温和众多国内外专家学者的踊跃加入,多标签分类的模型和算法层出不穷,大致可归为两类:第一类是算法适应,第二类是问题转化。l、基于算法适应的多标签分类研究算法适应就是从算法改进的角度来对多标签进行研究,已经有很多关于这方面的研究。其中,Clare和King[5】改进了基于决策树的单标签分类算法C4.5来解决生物信息中基因多功能归类问题,该算法通过将基因的功能集作为叶节点,并通过修改信息熵公式的方式来处理基因多语义的问题。ZhangM.L等人【I5j提出了一种基于KNN的多标签分类方法(Multi.Labelk.NearestNeighbor,ML.KNN),该算法首先根据原始样本集计算出
7、每个标签的先验概率,然后对于标签集中的所有标签,计算待测实例X属于某个标签和不属于该标签的概率,最后根据计算出来的概率值,预测X是否属于该标签。但是ML.KNN不适应用于高维数据的分类,万方数据绪论其复杂度会随着维数的增加而增大。Luo等人II6】提出了将KNN应用于构建两个基于多层次多标记的文档分类系统,并且这两个系统考虑了文档所属的多个类别的共生模式。但每个文档可能所属的类别数目是提前设置好的,然而现实生活中需预测分
此文档下载收益归作者所有