资源描述:
《基于元学习策略的分类器融合方法及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第10期王浩畅等:基于元学习策略的分类器融合方法及应用·13·基于元学习策略的分类器融合方法及应用王浩畅1,2,赵铁军1,郑德权1,于浩1(1.哈尔滨工业大学计算机与技术学院,黑龙江哈尔滨150001;2.大庆石油学院计算机与信息技术学院,黑龙江大庆163318)摘要:提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即GeneralizedWinnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合
2、方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。关键词:元学习;分类器融合;叠加归纳;级联归纳;命名实体识别中图分类号:TP391文献标识码:A文章编号:1000-436X(2007)10-0007-07Meta-learningbasedclassifierensemblestrategyanditsapplicationWANGHao-chang1,2,ZHAOTie-jun1,ZHENGDe-quan1,YUHao1(1.SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin
3、150001,China;2.CollegeofComputerandInformationTechnology,DaqingPetroleumInstitute,Daqing163318,China)Abstract:Anovelmeta-learningbasedclassifierensemblemodelwaspresented.Fourclassifiersi.e.GeneralizedWinnow,supportvectormachine,conditionalrandomfields,andmaximumentropywerecombinedusingtwodiffere
4、ntmeta-learningstrategies.Variousevidentialfeaturesspecifiedfortheapplicationofbiomedicalnamedentityrecognitionwereincorporatedintothesystemtohelpimproverecognitionperformance.Experimentalresultsshowthattheclassifierensemblestrategybasedonmeta-learningisobviouslysuperiortotheindividualclassifier
5、basedmethodandsuperiortothearbitrationrulebasedensemblemethod.Keywords:meta-learning;classifierensemble;stackedgeneralization;cascadegeneralization;namedentityrecognition第10期王浩畅等:基于元学习策略的分类器融合方法及应用·13·1引言统计机器学习方法的主要目的之一是解决分类问题,其过程就是通过样本集建立适当的统计模型,以此模型对新的数据进行分类识别。近年来,多分类器融合方法已经成为机器学习和模式识别领域的前沿课题,
6、选择不同的特征或不同的分类器可以得到不同的分类识别结果,这些结果之间往往具有互补性,因此多分类器融合能够有效提高学习系统的分类精度。收稿日期:2007-05-16;修回日期:2007-08-10基金项目:国家高技术研究发展计划(“863”计划)基金资助项目(2004AA11701008,2006AA01Z150)FoundationItem:TheNationalHighTechnologyResearchandDevelopmentProgramofChina(863Program)(2004AA11701008,2006AA01Z150)以分类为目标的学习算法有着广泛的应用。近年来
7、,随着生命科学研究的飞速发展,大量的生物医学知识以非结构化的形式被记载在各种形式的文本文件中。从海量相关文献中直接获取本领域相关信息并使其变为生物学家可直接利用的知识,是一项迫在眉睫的任务。以MEDLINE数据库为例,这个权威性最高的著名医学文献数据库,其文献总数目前已达到1600万,近几年每年有60第10期王浩畅等:基于元学习策略的分类器融合方法及应用·13·万篇文献发表。因此生物医学领域迫切需要有效的学习算法进行文本知识挖掘。因此,本文以生