资源描述:
《基于modis数据的决策树分类方法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第9卷第4期遥感学报Vo.l9,No.42005年7月JOURNALOFREMOTESENSINGJuly,2005文章编号:1007-4619(2005)04-0405-08基于MODIS数据的决策树分类方法研究与应用刘勇洪,牛铮,王长耀(中国科学院遥感应用研究所,遥感科学国家重点实验室,北京100101)摘要:介绍了目前国际上流行的两种决策树算法)))CART算法与C415算法,并引入了两种机器学习领域里的分类新技术)))boosting和bagging技术,为探究这些决策树分类算法与新技术在遥感影像分类方面的潜力,以中国华北地区MODIS250m分辨率影像进行了土地覆盖决策树分类试验与
2、分析。研究结果表明决策树在满足充分训练样本的条件下,相对于传统方法如最大似然法(MLC)能明显提高分类精度,而在样本量不足下决策树分类表现差于MLC;并发现在单一决策树生成中,分类回归树CART算法表现较C415算法具有分类精度和树结构优势,分类精度的提高取决于树结构的合理构建与剪枝处理;另外在决策树CART中引入boosting技术,能明显提高那些较难识别类别的分类准确率1815%到2516%。关键词:决策树;CART算法;C415算法;boosting和bagging技术;土地覆盖MODIS250m中图分类号:TN911.73文献标识码:A[3]种主要分类方法,Muchoney等人利用M
3、ODIS数[4]1引言据对美国中部进行土地覆盖分类,比较了决策树、神经网络、最大似然法3种分类方法效果,结果土地覆盖及其变化是全球环境变化过程中的重显示决策树分类精度最高,此外在小区域范围内,要因子,而土地覆盖/植被类型的分布对于地球生态Joy等人利用TM影像采用决策树对森林类型识别[5]系统过程的物质和能量交换中起着非常重要的作用也取得较好的效果。在国内,决策树也开始得到和地位,也是全球变化和碳循环模拟、气候模拟等研应用,王建等人利用地物的光谱统计特性结合纹理、究的重要内容。传统的土地覆盖/植被制图主要采形状等建立分层决策树有效提取荒漠化土地类[6]用地面调查和测量的手段,具有工作量大、更
4、新周期型;张丰等人根据水稻的高光谱特性建立混合决[7]长等缺点。遥感技术的发展,特别是全球1km策分类树,达到总体分类精度9419%效果;赵萍NOAA/AVHRR数据集产品的提供,为大范围的土建立了基于光谱特征和形状特征的简单决策树来自[8]地覆盖和森林制图提供了一条新途径,MODIS250m动提取居民地信息;李爽则对3种不同的决策树[9]分辨率全球数据的提供则兴起新一轮全球环境变化算法结构及理论进行了阐述。遥感研究的高潮。决策树作为一种监督分类方法,由于它的非参近年来,在全球及区域土地覆盖/植被覆盖遥感数和树结构特性,在处理遥感影像由于云覆盖和星制图方法上,决策树作为一种新兴的分类方法已得
5、下校正反射率NBAR(NadirBRDF-adjusted到成功应用。Hanson等人利用NOAA/AVHRR全reflectance)数据不全造成的损失问题上具有良好的球1b@1b数据进行了决策树与最大似然法的土地稳健性和鲁棒性,并克服了最大似然法对数据分布[1]覆盖分类,显示分类树法的精度优于最大似然要求的局限。同时,决策树相对于另一种流行的分法,马里兰大学全球8km的土地覆盖产品也采用了类方法)))人工神经网络法具有以下几个优势:[2]二元决策树分类算法进行监督分类,目前分发的(1)分类树不含隐含层,从而避免了神经网络方法MODIS1km全球土地覆盖产品也把决策树作为一的内在模糊性。(
6、2)计算时间明显少于神经网络。收稿日期:2004-04-06;修订日期:2004-05-08基金项目:中国科学院知识创新工程重大项(KZCX1-SW-01)和国家高技术研究发展计划(863计划2003AA131170)资助。作者简介:刘勇洪(1974)),男,在读硕士研究生,1996年获南京气象学院农业气象专业学士学位,主要从事遥感图像分类、土地覆盖等方面的研究。Emai:lliuyh7414@163.com。406遥感学报第9卷(3)树的分割层次关系有利于数据结构的解释,有间的联系(这时树生长未考虑噪声,往往反映的是训助于消除输入数据冗余和噪声,并能用于分类特征练过度情况下的数据联系),然
7、后对其进行删减,产生提取,例如Borak等人运用决策树从大量数据中进一系列子树,从中选择适当大小的树,用于对数据进[10]行分类特征选择,取得较好效果。行分类,具体来讲,分为树生长和树剪枝两部分:国内建立决策树的方法主要基于光谱统计特性21111树生长生成的阈值以及相关先验知识,在实际工作中由于树节点处的一次判别称为一个分支,它对应于时间、地点变化较大而难以操作,结果往往与研究者将训练样本划分成子集,根节点处