资源描述:
《多示例学习及其研究现状_蔡自兴》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、多示例学习及其研究现状多示例问题是Dietterich等[1]于上个世纪90年代中期提出的,其目的是判断药物分子是否为麝香分子(musky).麝香分子问题是多示例学习方法的应用之一.Maron等[2]将多示例学习方法应用于其他多示例问题,比如股票投资中的个股选择问题;Ruffo等[3]将多示例学习方法应用于数据挖掘;Antrews等[4],Huang等[5],Yang等[6],Zhang等[7]分别将多示例学习方法用于图像检索;Chevaleyre等[8]用多示例学习方法研究了Mutagenesis问题.应用结果表明,
2、多示例学习方法对于多示例这类不分明问题能达到较高的准确性.多示例学习被认为是第4种机器学习框架,并在短短几年时间内取得了一些引人瞩目的理论成果和应用成果.本文首先介绍多示例学习的概念,并总结出一些基本性质;然后对测试数据集musk进行分析,重点讨论了多示例学习的主要算法,并通过测试数据集musk的测试准确度对这些算法的性能进行比较;最后对多示例学习的未来发展作了展望.多示例学习的概念与性质多示例学习问题可描述为:假设训练集中每个数据是一个包(bag),每个包由一集示例(instances)组成,每个包有一个训练标记:
3、如果包有负标记,则包中所有示例都认为是负标记;如果包有正标记,则包中至少有一个示例被认为是正标记.学习算法需要生成一个分类器,能对未知的包(unseenbags)进行正确分类.多示例学习问题可用图1来说明.学习算法的目标是要找出unknownprocessf(·)的最佳逼近方法.图1多示例学习问题描述假设有N个包{B1,B2,,BN},第i个包由a(i)个示例{B11,B12,,B1a}组成,每个示例Bij是一个d维特征向量[Bij1,Bij2,,Bijd]T,标记集为Γ={li,l2,,lN
4、li∈ψ},其中ψ为标记
5、空间.记示例空间为Ω,其子集为{B1,B2,,BN},训练数据集为D=〈B,Γ〉={〈Bi,li〉
6、i=1,2,,N}.(1)定义1已知示例空间Ω及其子集(包)Bi={Bij
7、j=1,2,,a(i)},i=1,2,,N,标记空间ψ={positive,nagative},标记集Γ和训练数据集D=〈B,Γ〉,并且已知:条件1fM:{B1,B2,,BN}→ψ.(2)^则多示例学习问题为寻找一个映射fM,作为真实未知映射fM的最佳逼近.如果已知包中每个示例的标记,则可计算出包的标记.于是可利用下列条件[1]:条件2f:{Bi
8、j
9、i=1,2,,N,j=1,2,,a(i)}→ψ.(3)意为将N个包中的示例合并为一个数据集DB={Bij
10、i=1,2,,N},j=1,2,,a(i),每个数据是一个示例,可按示例学习[9,10]等方式进行学习.按这种方式对多示例问题进行学习的算法称为单示例学习算法.条件1与条件2之间有如下关系:命题1已知示例空间Ω及其子集(包)Bi={Bij
11、j=1,2,,a(i)},i=1,2,,N:1)如果标记空间ψ={TRUE(positive),FALSE(nagative)},则对多示例问题,有fM(Bi)=f(Bi1)
12、∨f(Bi2)∨∨f(Bia(i)),i=1,2,,N,(4)其中“∨”为布尔“OR”运算;2)如果ψ是实的二值集合,正标记对应的实数比负标记大,则对多示例问题,有fM(Bi)=max{f(Bi1),f(Bi2),,f(Bia(i))},i=1,2,,N.(5)当以示例作为训练数据时,使用条件2可学习^到一个映射f,作为映射f的最佳逼近;然后按命题^1也能构造出一个映射fM,作为真实未知映射fM的最佳逼近.以示例或包作为训练数据,是一个利用信息量多少的问题.从这一角度可分为以下几种方式:1)将多示例转变为单示例,也就
13、是只利用条件2.这时可用各种示例学习算法(例如基于事例学习,基于实例学习,决策树算法ID3及其改进算法C4.5,BP神经网络等[9,10])进行学习,获取一个映^射f作为映射f的最佳逼近,然后构造出映射fM.^2)同时利用条件1和条件2,获取一个映射f作为映射f的最佳逼近,然后构造出映射fM.3)同时利用条件1和条件2,通过多示例学习算法直接获取映射fM.4)只利用条件1,通过多示例学习算法直接获取映射fM.从利用信息量看,方式2)和方式3)效果要好些,方式1)效果较差.文献[1]作过测试,按方式1)使用算法C4.5和
14、反向传播BP神经网络的效果较差.从研究情况划分,多示例学习算法可分成三类:一是将单示例学习算法扩展为该算法的多示例版本;二是针对多示例问题的特性构造专门的算法;三是前二者的结合,称为混合方式.多示例学习的测试数据集musk对于多示例测试数据集的构造,通常是首先选择所讨论问题的特征向量和标记集Γ;然后按问题要求的规则,确定一组特征向