资源描述:
《毕业论文——基于C4.5算法的空间分类应用探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
本科毕业设计(论文)题目:基于C4.5算法的空间分类应用探究学生姓名:学号:专业班级:地理信息系统指导教师:20年6月20日 中国石油大学(华东)本科毕业设计(论文)基于C4.5算法的空间分类应用探究摘要随着大数据时代的到来,通过数据挖掘获取海量数据背后的知识变得尤为重要。而空间数据是大数据的基础使得空间数据挖掘意义更为突出。其中空间分类是空间数据挖掘近年来较活跃的一个分支。本文基于决策树算法中的C4.5算法,以94年美国部分人口收入数据为例进行了空间分类应用研究。C4.5算法采用信息增益率作为选择分支属性的标准,分类得到一组判断个人年收入是否大于5万美金的规则用于预测人口收入,并得到不同因素对收入影响力的排序。其中工作周数、年龄、学历和性别对于收入的影响,提醒我们需要进一步促进就业,普及高等教育,消除性别歧视以及给年轻人创造更多的机会。将分类结果与空间信息相关联后直观地展示到地图上,可以看到各行业的人口收入在各地区间的一些差异,有利于进一步挖掘空间知识,指导各地区乃至国家的经济部署。关键词:空间数据挖掘;空间分类;C4.5算法;人口收入 中国石油大学(华东)本科毕业设计(论文)ResearchandApplicationofSpatialClassificationBasedonC4.5AlgorithmAbstractAlongwiththeBigDataera,seizingtheknowledgebehindthehugedatabydataminingisveryimportant.Accordingtotheknowledgepeoplecanforecasttheunknowninformationfromtheknowndataattributes.SpatialdataisthebasisoftheBigData.Sospatialdataminingbecomesextremelysignificant.Spatialclassificationisahotdirectionofspatialdatamining.Thethesischosethecensusincomedatain1994fromU.S.CensusBureauforclassificationbasedonC4.5algorithm.C4.5algorithmusesinformationgainratiotoselecttheattributesforclassification.Thealgorithmproducedasetofruleswhichcanjudgeandpredictifthepersonalannualincomeisbeyond50,000$.Accordingtotherules,thethesisgotthedifferentdegreesoftheseattributes’influentialpoweronincome.Theinfluencesofattributeslikework-weeks,age,sexandeducationgiveusthesuggestionsthatweshouldstillpromoteemployment,education,reducesexismandcreatemoreopportunitiesforyoungpeople.TheclassificationresultscanberelatedtothespatialdataandshowedontheMap.Andwecanfindthedifferencesofcensusincomefromdifferentindustriesinvariousareas.Spatialknowledgecanbefoundmoreeasilytobeusedforguidingtheplanofeconomyintheseareaseventhecountry.Keywords:spatialdatamining;SpatialClassification;C4.5Algorithm;censusincome 中国石油大学(华东)本科毕业设计(论文)目录第1章引言11.1研究背景11.2研究意义2第2章空间数据挖掘42.1数据挖掘42.2空间数据挖掘52.2.1空间聚类52.2.2空间分类62.2.3空间关联规则72.2.4空间趋势预测7第3章决策树分类算法83.1决策树算法综述83.2C4.5分类算法原理9第4章数据预处理114.1数据来源114.2数据属性值的选取与特殊样本的剔除114.3数据缺失值处理与字符串的数值化12第5章决策树分类结果与讨论155.1决策树分类结果155.2分类结果的讨论19第6章结论25致谢27参考文献28附录29附录A按工种分类各区域人口收入分布表29附录BC4.5决策树算法流程图30 第1章引言第1章引言1.1研究背景随着计算机网络与移动通讯技术的高速发展,人类所拥有的数据正在经历着爆炸式的增长,大数据时代已经不可阻挡地到来了。面对大数据,人们迫切需要获取海量数据背后的重要信息和知识,发现数据中存在的关系和规则,并根据现有数据对未来的发展做出预测。其中空间数据是大数据的基础,约80%的数据与空间位置有关[1]。因此对于空间数据进行挖掘具有十分重要的意义。数据挖掘技术综合了人工智能、数据库系统、专家系统、统计学、机器学习、信息科学和可视化等多个学科领域,经过近20年的研究和改进已经形成了一套较为完整的理论体系和技术体系。数据挖掘是指从大量的、模糊的、随机的、有噪声的、不完全的数据中,提取隐藏在其中的、人们事先不知道的但又是有用的信息和知识的过程。空间数据挖掘即指以空间知识为主的数据挖掘。这里的空间知识主要指空间的关联、特征、分类及聚类等规则和异常检测[2]。它是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段、多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、空间统计学、人工智能以及地理信息系统等各学科的成果[3]。空间数据挖掘的方法主要有空间聚类,空间分类,空间关联规则以及空间趋势预测等等。而决策树算法(DecisionTreeAlgorithm)是用于分类和预测的主要算法,它通常从一组无规则的事例推理出以决策树形式表达的分类规则,利用自顶向下的递归方式,不断在决策树内部节点进行属性值比较,根据不同属性判断是否从该节点向下分支,并在决策树的叶结点得到结论。所以,从根节点到叶结点对应着一条分类规则,一整棵树就对应了一组表达式规则。决策树算法的一个最大优点就是它在学习过程中不需要获取很多背景知识,只要训练样本能用属性加结论的方式表达出来,就能用决策树算法进行学习。决策树分类算法里C4.5算法是空间数据挖掘中最常用、最经典的分类算法之一,能够以图形化的形式展示挖掘结果,从而方便使用者快速做出决定或预测。决策树分类算法在各行业都有广泛应用,如自然地理综合区划、灾害风险区划、农业区划、交通管理、流行病预测、人口统计以及客户资源管理(CRM)系统等。30 第1章引言1.2研究意义数据挖掘是现代数据研究领域的重要技术,是能够给使用者带来收益的一项技术手段,其无论在商业领域还是在研究领域中都占有非常重要的地位,对该项技术的研究也就无可厚非的成为了各领域关注的重点,其重要性和意义如下:(1)数据挖掘可以提升信息服务层次;(2)数据挖掘可以提升政府、企业以及研究机构对信息的把握程度;(3)数据挖掘为决策提供可靠的技术支持。其中空间数据挖掘中的空间分类算法是属于预测式数据挖掘的一种数据分析方法,其目的是根据重要样本数据集找出能准确描述并区分数据类或概念的模型,以便依据实体的属性值及其它约束条件将其划分到某个数据类别中去。分类是已知现存的类别,要建立类别的描述规则,并对新例的观察值判别归类,在机器学习中这种分类被称为有指导学习或有监督学习。分类对象通常表示为数据库表或者文件中的记录,分类工作包括向数据库中添加一个新列,并给出某种分类代码。分类工作首先要对所要处理的数据进行合理的分析处理,有一个清晰定义的类,还要有一系列已分类实例。分类似乎是人类的规则,为了理解并与周围环境交互,人们每天都在归类、分类以及分级。分类包括考察一类新出现的对象的特征,并归类到已定义类中。因此空间分类的意义有:(1)以空间对象的方位、距离或形态和连通关系把它们映射到有意义的的不同类别;(2)通过空间分类解决区划问题,可将分到同一类的地区划到一个区域;(3)通过空间分类解决预测问题,可利用分类准则预测未知的分类结果。本文以居民的收入数据为例进行分类研究。居民收入水平的高低直接影响其生活质量的好坏,收入分配是否均匀关系到社会的和谐与稳定。对居民的收入情况进行调查统计,对人口收入数据进行分类发掘人口收入数据中对收入影响较显著的因素,根据这些因素的变化来预测某地区的收入变化,或者改善相应环境以提高人口收入对于一个国家或地区具有十分重要的意义。同时,在分类过程中选取一定的空间属性信息进行关联,从数据中挖掘空间信息,直观地展示到地图上,有利于发现收入及相关因素在空间分布上可能存在的不均衡,根据收入的差距可划分不同区域(区划参考),从而对于一个地区或国家下一步的投资发展提供一定的决策参考。本课题主要以美国人口普查局1994年间的人口与收入数据为训练样本,使用C30 第1章引言4.5算法进行决策树分析,将可能影响人口收入的一些空间属性,比如研究对象的父母的出生国,本人的出生国、国籍,本人是否有从乡村向大都市区迁移以及现在的住址位于美国的哪个区域,哪个州等等空间数据,以及其他对于收入影响较为明显的非空间属性,如年龄、性别、学历、一年中工作的周数等作为分类的依据,通过C4.5算法寻找影响力较强的因素,理解C4.5算法相对于ID3算法的改进。通过对分类的结果进行分析,并展示到空间上,我们可能发掘出一定的空间知识,并可以对人口的收入情况进行预测。找到哪些因素对个人年收入大于5万美金呈现正相关关系,可以用于指导人们提高个人收入,以及发现社会中导致收入差距存在的一些影响因素,缩小收入差距,促进收入分配的公平。30 第2章空间数据挖掘第2章空间数据挖掘2.1数据挖掘数据挖掘是新兴的一门技术学科,起源于1989年于底特律(美国)举行的第一届KDD(从数据库中发现知识)国际学术会议。1994年在加拿大举行的地理信息系统国际会议上,李德仁院士第一次提出了从地理信息系统数据库中发现知识的理念,也就是KDG英文名称即:knowledgediscoveryfromGIS。第一届知识发现与数据挖掘(knowledgediscoveryanddatamining)的国际会议于1995年在加拿大召开。数据库中的数据在会议上被形象地比喻成了矿床,由此诞生崭新的数据挖掘学科(DM,datamining,又译作数据发掘、数据开采或数据采掘等)。数据挖掘技术综合了人工智能、统计学、数据库系统、专家系统、机器学习、信息科学和可视化等多个学科领域,经过近20年的研究和改进已经形成了一套较为完整的理论体系和技术体系。数据挖掘是指从大量的、模糊的、随机的、有噪声的、不完全的数据中,提取隐藏在其中的、人们事先不知道的但又是有用的信息和知识的过程。这些信息和知识能够以概念、规律、规则和模型等形式表达[4]。数据挖掘涉及数据、信息和知识三个基础概念,这三个概念如同几何上线、面、立体之间的关系,其中数据是原始的未解释的符号或信号,比如0、1;信息则是有一定解释或意义的数据,例如SOS;而知识是综合信息形成的观点及普适性的理论,信息与数据相连,知识则同时与数据和信息相关。通过数据挖掘一般可以得到以下结果:(1)从数据中形成模型;(2)从数据中派生出新数据;(3)从数据中获取知识与规律,达到更充分利用数据的目的数据挖掘可以分为两种类型:数据驱动和模型驱动。数据驱动方法是基于已有数据里面说发现的模式而创建的模型,这种新式模型必须在被确认正确之前进行检验,模型的建立过程是交互的,最终模型一般由新发现的信息和历史经验结合来完成[5]30 第2章空间数据挖掘。与之相反,模型驱动的数据挖掘要求用户根据可利用的数据建立的模型或者历史经验,估计模型参数,然后也要检验模型是否有效,模型的主要用途是描述和预测。数据挖掘中的知识发现要依靠这样两种方法的协同作用,数据驱动与模型驱动在数据挖掘过程中的关系如图2-1所示。图2-1数据驱动和模型驱动的数据挖掘过程(据Gaheganetal.,2001)2.2空间数据挖掘空间数据挖掘即指以空间知识为主的数据挖掘。这里的空间知识主要指空间的关联、特征、分类及聚类等规则和异常检测[2]。它是计算机技术、管理决策支持技术以及数据库应用技术等发展到一定阶段的新兴边缘学科,汇集了来自数据库、空间统计学、机器学习、模式识别、人工智能以及GIS等各学科的成果[3]。空间数据具有高维的数据结构,包含了拓扑、方位、距离等信息。空间数据挖掘是为了解决“空间数据爆炸但知识贫乏”的现象而不断发展起来的。它的研究对象主要有SpatialDatabase或SpatialDataWarehouse。空间数据挖掘与传统的地学数据分析相比,更强调在隐含未知情况下对空间数据本身进行分析并挖掘规律,空间知识分析工具获得的信息会更概括和精炼[6]。2.2.1空间聚类空间聚类分析是指通过空间对象的相似特征,将它们聚成一类,目的是发现研究对象在空间上的相连、相邻和共生等关系。由于空间聚类通常是对图形直接聚类,导致聚类形状复杂、数据量大,因此采用经典的多元统计分析的方法就显得速度慢、效率低,这对空间聚类算法提出了更高要求,以下对于常用的一些聚类算法基于六个指标进行了比较,比较结果见表2-1:30 第2章空间数据挖掘表2-1聚类算法比较2.2.2空间分类空间分类是指通过空间对象的方位、距离或形态和连通关系把它们映射到有意义的的不同类别。很多区划问题和空间预测问题都可以通过空间分类来实现,例如自然地理综合区划、灾害风险区划和农业区划以及流行病趋势预测等课题。空间分类作为最近较为活跃的一个分支也属于空间挖掘领域。其中决策树分类技术是迄今为止发展最为成熟的一种概念学习方法。它产生于上个世纪的六十年代,前身为由Hunt等人在研究人类概念建模的时候所建立的学习系统,到了上世纪的七十年代,JRossQuinlan提出了ID3算法,此算法旨在减少树的深度。然而忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题。决策树分类算法的优点如下:(1)分类精度高;(2)生成的模型简单;(3)对噪声数据有特别好的鲁棒性。因而成为目前应用极其广泛的归纳推理算法之一,在数据挖掘理论中受到了广泛的关注。30 第2章空间数据挖掘而决策树分类算法中的C4.5算法是空间数据挖掘中最常用、最经典的分类算法之一,能够以图形化的形式展示挖掘结果,从而方便使用者快速做出决定或预测。决策树C4.5算法和C5.0算法一样,它们都是基于ID3算法的改进。2.2.3空间关联规则空间关联规则指的是空间对象间相连、相邻、共生、包含等空间变量之间明显依赖关系的模式,反映了空间对象之间以及对象与空间位置等属性的关联关系。关联规则可以描述为A=>B[%s,%c],其中A与B是空间和非空间谓词集合,%s表示规则的支持度,而c%表示规则的可信度。空间关联规则发现方面,Malerba等人在2001年提出了归纳逻辑编程,作为空间关联规则解决方案。这个方案受益于空间领域的先验知识,系统地研究了地图图层的层次结构,处理对象的数值属性,这个方案已经在ILP系统的SPADA上实现了。该方案成功地应用到了对于英国曼彻斯特Stockport的人口普查数据的空间关联规则的发掘,它能够利用计算逻辑来处理传统统计方法无法处理的应用;Aspinall等人在2000年把景观生态学、环境模型和GIS结合,利用综合地理评估,研究了黄石公园的水流汇合处环境条件,并发掘出了环境保护方面的关联规则;陈江平等人在2003年提出基于空间分析提取关联规则,把提取过程分为3步,分别是第一步空间目标确定与第二步空间关系精简以及最后的一步空间关联规则提取,这种方法有效降低了空间关联规则提取算法的空间及时间复杂度。2.2.4空间趋势预测空间趋势分析要处理的数据通常是根据某个空间维发现的变化趋势数据,既有空间数据变化也有非空间数据变化,比如距离都市中心远近变化对应的经济形势的变化趋势等等。一般采用空间回归和自相关分析等方法进行预测。近年来,不少研究机构在空间趋势预测方面取得了不错的成果,例如明尼苏达大学的空间数据库研究小组采用SAR(SpatialAutoregressiveModel)模型进行空间位置预测,成功预测出湿地中鸟巢的位置[7];Hoffman和Fraczek利用软件ArcView对南加州SanBernardino县的麻疹病流行趋势进行各类空间分析,从而确定了危险区域人口的参数模型;Fraczek还基于Arcview的空间分析模块GRID对1990年的人口数据进行分析,定义了各种独立参数,例如年龄、出生率、收入等等,更为精确地预测了麻疹病毒的依赖参数,并在这些参数的基础上建立了线性衰减模型。该模型已经用于分析引起流行病的原因和特征,预测哪些区域未来可能爆发流行病[8]。30 第3章决策树分类算法第3章决策树分类算法3.1决策树算法综述决策树算法(DecisionTreeAlgorithm)是用于分类和预测的主要算法,它通常从一组无规则的事例推理出以决策树形式表达的分类规则,利用自顶向下的递归方式,不断在决策树内部节点进行属性值比较,根据不同属性判断是否从该节点向下分支,并在决策树的叶结点得到结论。所以,从根节点到叶结点对应着一条分类规则,一整棵树就对应了一组表达式规则。决策树算法的一个最大优点就是它在学习过程中不需要获取很多背景知识,只要训练样本能用属性加结论的方式表达出来,就能用决策树算法进行学习[9]。决策树算法中经典算法有ID3、C4.5、C5.0和CART算法等,决策树分类模型有如下优点:(1)结构简单,容易理解;(2)处理效率高,适用于处理大数据;(3)通常不需要接受训练集以外的数据;(4)分类精度较高。ID3算法之所以是一种经典的决策树算法,是因为它从根节点开始,给予根节点一个最好的属性。随后对该属性的每个取值都生成相应分支,每个分支上又生成新节点。关于最好属性的选择标准,ID3采用信息熵定义的信息增益来选择内节点的测试属性,熵(Entropy)刻画了任意样本集的混乱度。ID3算法存在的缺点:(1)ID3算法在选择根节点和内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性,在有些情况下这类属性可能不会提供太多有价值的信息;(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。30 第3章决策树分类算法C4.5算法之所以是最常用的决策树算法,是因为它继承了ID3算法的所有优点并对ID3算的进行了改进和补充。C4.5算法采用信息增益率作为选择分支属性的标准,克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理,还能够对不完整数据进行处理。C4.5算法属于基于信息论(InformationTheory)的方法,它是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。C5.0算法与C4.5算法相同,也是基于增益率来构造的,同样是ID3算法的扩展。不同之处是C5.0算法作为C4.5算法的修订版,又进行了一些改进,使得运行效率更高,占用计算机内存更少,更适合于处理大数据集[10]。CART算法是决策树算法中的一种,基本理论与C4.5算法类似,也是一种比较经典的决策树算法。它采用二分递归分割技术,把样本分为两个子集样本,依次进行,使得决策树的每个非叶子节点都派生出两个分支。CART算法最终生成的决策树就是结构简单的二叉树结构了。3.2C4.5分类算法原理C4.5分类算法是以信息增益率为指标进行决策树分类的,设S为s个样本的集合,假设类标号Ci(i=1,2,······,m)具有m个不同的取值,而si是Ci类中的样本数目,则一组样本数据的总信息值定义如公式(3-1):(3-1)其中,pi是任何一个样本属于Ci的概率,用si/s来估计。设属性A有a1,······,av共v个取值;其中sj表示S中属性A取值为aj的样本数目,如果取A作为测试属性,则可以设sij是属性值取aj的样本中类别为Ci的样本数,|S|表示总的样本数目。那么根据属性A划分的子集的熵值可以用公式(3-2)表示:(3-2)那么属性A的信息增益可以用公式(3-3)表示为:(3-3)则属性A对应的拆分信息(SplitInfo)可以用公式(3-4)来表示:30 第3章决策树分类算法(3-4)其中|Si|表示S中属性A的取值为ai的样本数目。如此一来,属性A的信息增益率GainRatio可以用公式(3-5)表示:(3-5)按照上述过程依次计算出所有属性的信息增益率,然后取信息增益率最大的属性作为根节点划分属性向下派生分支,然后对派生的分支再依次计算剩余属性中信息增益率最大的属性作为该节点下一轮派生分支的划分属性,如此进行下去,直到所有当前节点内的样本都属于同一类时,得到一个完整的决策树,终止迭代计算[11]。30 第4章数据预处理第4章数据预处理4.1数据来源本次课题选取的数据为美国国家人口普查局(U.S.CensusBureau)于2000年3月7日捐赠给加州大学欧文分校著名机器语言学习网站:http://archive.ics.uci.edu/ml/datasets.html的人口与收入统计数据。数据分为1994年和1995年,共计有199523个数据样本,每个样本有45条属性,样本数量接近20万之多,属性信息也非常丰富,而且其中包含了9条空间信息,适合于本次课题的研究。样本分类的类别标志为个人年收入是否超过5万美元,通过C4.5算法的分析计算,致力于对影响人们收入的属性数据按影响力的大小进行排序,从而为预测、提高人们的收入以及描述收入的空间分布提供参考。4.2数据属性值的选取与特殊样本的剔除由于样本量过于庞大,导致计算机在处理过程中效率十分低下,以及一些属性信息对本次课题的主题联系不大,所以不得不从45条属性中删除大部分属性。首先本课题的研究以空间数据为主,所以是否保留属性有两个原则:第一是与空间数据信息的相关性,第二是是否有利于进一步优化数据并帮助分类。根据这两个原则,我选择了父亲的出生国,母亲的出国,本人的出生国,本人的国籍,本人是否在过去一年搬过家,本人是否有过在大都市区或非大都市区之间的迁移经历,具体是从哪种区迁到哪种区等等空间数据属性用于决策树分类以及分类后在空间上展示分类结果;年龄,学历水平,工种,所在行业及一年中工作的周数这5种属性数据也被保留了下来用作数据的优化与分类;个人年收入是否大于5万美金作为分类的结果的标签。30 第4章数据预处理首先因为1994年和1995年的数据在很大程度上具有重复性,且1995年数据缺失大量的搬家信息,因此决定只使用1994年的数据,这样既可以提高计算机的运行速率,减轻计算机的内存负担,也可以确保搬家信息的有效性。另外年龄低于18岁或者还在上学阶段的样本对象要剔除,因为他们绝大多数没有固定收入,故收入一定低于5万美元,不受空间位置或学历等的影响。另外年龄大于65的人口也要剔除,他们大部分人收入低于5万美金,原因是已经退休,每年的工作周数基本为零,他们收入低通常也不是空间位置等因素造成的。另外就是直接对样本对象每年工作的周数进行判别,如果每年工作的周数少于等于26周(其实绝大多数工作周数少于26周的人的工作周数都集中在0周到4周),即一年中一半以上的时间都没有参加工作,那么收入低于5万美元一年更可能是由于没有工作(比如家庭妇女在家里负责照顾家庭不外出工作,以及年龄较大或较小的人只偶尔做兼职或完全不工作这些情况),而不是因为空间因素的影响。属性列的剔除比较简单,在Excel表格中可以直接选中一个属性列删除即可。而样本的剔除由于数量庞大,需要自己编程通过遍历和判断来依次删除。4.3数据缺失值处理与字符串的数值化考虑到MATLAB自带函数在处理数据上的简便性,本次课题使用MATLAB编程实现C4.5算法。由于MATLAB处理矩阵时,数字矩阵识别度和处理能力更强,而原始数据中大都为字符串数据,因此需要将字符串数据自己编码转换成数字。首先是关于出生国属性的编码,由于该属性有多达43个属性值,处理起来过于繁杂,且没有必要划分如此详细,本课题将其划分为4类如表4-1所示:表4-1出生国情况分类表国别美国本土发达国家发展中国家最不发达国家代码0123划分的依据是联合国开发计划署(UNDP)2010年11月4日发布的《2010年人文发展报告》。其中归入发达国家的国家或地区有美国,美国本土外的关岛,波多黎各,维京群岛等,加拿大,英国,德国,法国,荷兰,波兰,意大利,希腊,苏格兰,匈牙利,爱尔兰,韩国,香港,台湾,日本等等;归入发展中国家的有中国,墨西哥,越南,菲律宾,印度,古巴,波多黎各,泰国,秘鲁,哥伦比亚,巴拿马,洪都拉斯,多米尼加共和国,特立尼达和多巴哥尼加拉瓜,厄瓜多尔,萨尔瓦多,南斯拉夫等等;归入最不发达国家的是海地,柬埔寨,老挝等等。接着是对个人国籍5种情况的编码,这5种情况有:土生土长美国人(AA);外国出生的外国人(FF);父母美国人在外国出生的美国人(FA);父母是美国人出生在美国本土外领土如波多黎各,关岛等地的美国人(OALA);父母外国人移民到美国来的美国人(PFFA)。编码情况见表4-2:30 第4章数据预处理表4-2国籍情况分类表国别AAFFFAOALAPFFA代码01234然后是对人口迁移情况的编码,把从大都市区迁往非大都市区(msa2nonmsa),非大都市区迁往大都市区(nonmsa2msa),同类地区之间迁移(same2same),没有迁移(nonmover)分为4类编码,如表4-3所示:表4-3人口迁移情况分类表国别msa2nmsanmsa2msasame2samenonmoverabroad2msaabroad2nmsa代码012345有部分样本的该属性值缺失,显示为“?”,由于这些数据比例极小,并且C4.5算法可以识别缺省值,所以可以不用处理。对于学历情况,共有17种属性值,过于繁琐,于是将其划分为4类,编码情况如表44-4所示:表4-4学历情况分类表国别0-11年级其他本科本科以上代码0123对于工种,原始数据中共有多达47种属性值,数目太多,不利于生成较为简明的决策树,并且容易导致过拟合,所以将47种属性值分为了6个大类,其中第六类军方人员由于占总人口比例过低(不足0.2%),所以在分类中直接舍去。编码分为5类如表4-5所示:表4-5工种情况分类表国别服务类行政管理类技术类专家类农业类代码01234对于行业属性,共有8个属性值,将其中在联邦政府、州政府、地方政府工作并为一类:政府工作。得到行业属性值分类如表4-6所示:30 第4章数据预处理表4-6行业情况分类表国别政府个体经营未工作私营业主志愿工作自由职业代码012345对于美国的分区属性,共划分为5个区域,分为东北、东南、西北、西南和中西部,编码情况如表4-7所示:表4-7美国分区情况分类表国别东北部中西部西北部西南部东南部代码01234年龄作为连续变量处理,性别男性用0编码,女性用1编码。至此,分类运算过程中所有需要的属性均已编码。30 第5章决策树分类结果与讨论第5章决策树分类结果与讨论5.1决策树分类结果数据预处理后,使用MATLAB编程实现C4.5算法。经实验,自己的程序调试通过之后,只取空间信息进行分类,得到的分类结果与预期结果差异较大,分类直接将所有样本的收入类别归入低于5万美金的类,数据集中的空间信息对分类没有做出贡献,因此只能推测,本数据集所含的空间类信息对居民的收入影响不强,起码达不到预测个人年收入是否大于5万美金的影响力。于是通过实验筛选出数据集中其他与收入关系更紧密的普通属性数据:例如年龄、性别、学历、年工作周数、工种等属性来对样本进行分类,以期获得一个可以预测收入的分类模型,结果成功地完成了分类。分类所得的结果如下:work-weeks<=38:-50000(58489.0/514.0)work-weeks>38|age<=31:-50000(12021.0/424.0)|age>31||sex=-Male|||education=-low-level:-50000(1944.0/109.0)|||education=-Bachelors-degree(BA-AB-BS)||||industry-code=-Not-in-universe:-50000(51.0/12.0)||||industry-code=gov|||||age<=46:-50000(299.0/75.0)|||||age>46||||||occupation-code=-Not-in-universe:-50000(0.0)||||||occupation-code=-Professional-specialty|||||||age<=54:-50000(60.0/16.0)|||||||age>54:+50000(31.0/14.0)||||||occupation-code=service:+50000(22.0/8.0)||||||occupation-code=-Farming-forestry-and-fishing:-50000(0.0)30 第5章决策树分类结果与讨论||||||occupation-code=admin:+50000(76.0/33.0)||||||occupation-code=Technician:-50000(7.0/1.0)||||||occupation-code=-Armed-Forces:-50000(0.0)||||industry-code=-Never-worked:-50000(0.0)||||industry-code=-Private|||||occupation-code=-Not-in-universe:-50000(0.0)|||||occupation-code=-Professional-specialty||||||age<=33:-50000(58.0/17.0)||||||age>33|||||||work-weeks<=51:-50000(27.0/11.0)|||||||work-weeks>51:+50000(348.0/153.0)|||||occupation-code=service:-50000(439.0/181.0)|||||occupation-code=-Farming-forestry-and-fishing:-50000(20.0/3.0)|||||occupation-code=admin||||||age<=36:-50000(168.0/74.0)||||||age>36:+50000(535.0/201.0)|||||occupation-code=Technician:-50000(271.0/76.0)|||||occupation-code=-Armed-Forces:-50000(0.0)||||industry-code=-Self-employed-incorporated|||||occupation-code=-Not-in-universe:+50000(0.0)|||||occupation-code=-Professional-specialty:-50000(30.0/12.0)|||||occupation-code=service:+50000(90.0/28.0)|||||occupation-code=-Farming-forestry-and-fishing:-50000(14.0/7.0)|||||occupation-code=admin:+50000(108.0/37.0)|||||occupation-code=Technician:-50000(25.0/4.0)|||||occupation-code=-Armed-Forces:+50000(0.0)||||industry-code=-Self-employed-not-incorporated:-50000(292.0/82.0)||||industry-code=-Without-pay:-50000(2.0)|||education=middle-level:-50000(7994.0/1263.0)30 第5章决策树分类结果与讨论|||education=high-level||||occupation-code=-Not-in-universe:-50000(82.0/33.0)||||occupation-code=-Professional-specialty|||||industry-code=-Not-in-universe:+50000(0.0)|||||industry-code=gov||||||age<=42:-50000(127.0/35.0)||||||age>42:+50000(248.0/106.0)|||||industry-code=-Never-worked:+50000(0.0)|||||industry-code=-Private||||||age<=33:-50000(55.0/21.0)||||||age>33:+50000(579.0/229.0)|||||industry-code=-Self-employed-incorporated:+50000(111.0/16.0)|||||industry-code=-Self-employed-not-incorporated:+50000(176.0/56.0)|||||industry-code=-Without-pay:+50000(0.0)||||occupation-code=service:-50000(394.0/121.0)||||occupation-code=-Farming-forestry-and-fishing:-50000(52.0/6.0)||||occupation-code=admin|||||work-weeks<=50:-50000(67.0/18.0)|||||work-weeks>50||||||age<=35:-50000(90.0/35.0)||||||age>35|||||||industry-code=-Not-in-universe:+50000(0.0)|||||||industry-code=gov||||||||age<=45:-50000(47.0/19.0)||||||||age>45:+50000(106.0/31.0)|||||||industry-code=-Never-worked:+50000(0.0)|||||||industry-code=-Private:+50000(417.0/135.0)|||||||industry-code=-Self-employed-incorporated:+5000030 第5章决策树分类结果与讨论(67.0/18.0)|||||||industry-code=-Self-employed-not-incorporated:-50000(51.0/23.0)|||||||industry-code=-Without-pay:+50000(0.0)||||occupation-code=Technician:-50000(516.0/111.0)||||occupation-code=-Armed-Forces:+50000(1.0)||sex=-Female:-50000(13155.0/1033.0)该分类结果的解读方法如下(以前6行为例):work-weeks<=38:-50000(58489.0/514.0)work-weeks>38|age<=31:-50000(12021.0/424.0)|age>31||sex=-Male|||education=-low-level:-50000(1944.0/109.0)(1)如果一年中工作周数小于等于38周,则个人年收入归入低于5万美金;(2)如果一年中工作周数大于38周,则继续判断年龄属性;(3)如果年龄小于等于31岁,则个人年收入归入低于5万美金;(4)如果年龄大于31岁,则继续判断性别属性;(5)如果性别为男性,则继续判断学历属性;(6)如果学历为低等学历,则个人年收入归入低于5万美金;·········以此类推直到穷尽整棵决策树,由于本数据集的分类书的叶子数多达59个,树的深度为6,树形过于庞大复杂,因此在论文中不便于展示其全貌,这里给出决策树的一部分,见图5-1:30 第5章决策树分类结果与讨论图5-1C4.5算法分类决策树部分在经过交叉验证后分类的精度达到了94.4879%,基本令人满意。5.2分类结果的讨论30 第5章决策树分类结果与讨论从分类结果中可以看出,对于个人年收入是否大于50000美金的最强影响因素是一年内工作的周数,其他因素按照重要性由高到低排序是年龄、性别、学历、工种以及行业。该分类决策树可以用于收入的预测,例如:知道一个人的以上6个属性信息,就能够以94.4879%的准确率预测其个人年收入是否大于5万美金。根据分类结果把各分类属性信息对应的人口数与收入情况与样本所在空间区域相关联,并把结果展示到美国地图上,可以得到这些属性信息的大致空间分布。以不同工种的从业者数量和其收入分布为例,将美国按照数据集中的5个分区,分为东北区、东南区、西北区、西南区已及中西部,服务行业的从业者分布情况大致为图5-2所示:图5-2服务类人员从业人数与收入分布图其中柱状图的下面部分代表个人年收入低于5万美金的人数,柱状图上面部分代表个人年收入大于5万美金的人数,图中东北区服务业从业人员总数为36015人,其中个人年收入低于5万美金的人数为34092人,个人年收入高于5万美金的人数为1923人。东北区人数最多,其余区域的人数可根据柱形图的比例推测,具体数据可参考附录。东北部由于人口众多,经济发达,服务业也相对发达,因此服务业从业人口较多。行政与管理类岗位(包括公务员)从业人员的分布见图5-3所示:30 第5章决策树分类结果与讨论图5-3行政与管理类从业人员分布图其中柱状图的下面部分代表个人年收入低于5万美金的人数,柱状图上面部分代表个人年收入大于5万美金的人数,图中东北区行政与管理类从业人员总数为31489人,其中个人年收入低于5万美金的人数为29353人,个人年收入高于5万美金的人数为2136人。东北区人数最多,东南区次之,其余区域的人数可根据柱形图的比例推测,具体数据可参考附录。技术类工种的从业人员分布如图5-4所示:其中柱状图的下面部分代表个人年收入低于5万美金的人数,柱状图上面部分代表个人年收入大于5万美金的人数,图中东北区技术类从业人员总数为27012人,其中个人年收入低于5万美金的人数为25297人,个人年收入高于5万美金的人数为1715人。东北区人数最多,其余区域的人数可根据柱形图的比例推测,具体数据可参考附录。图5-4请见下一页。30 第5章决策树分类结果与讨论图5-4技术类从业人员分布图专家类从业人员的分布情况如图5-5所示:图5-5专家类从业人员分布图30 第5章决策树分类结果与讨论其中柱状图的下面部分代表个人年收入低于5万美金的人数,柱状图上面部分代表个人年收入大于5万美金的人数,图中东北区专家类从业人员总数为27012人,其中个人年收入低于5万美金的人数为25297人,个人年收入高于5万美金的人数为1715人。东北区人数最多,其余区域的人数可根据柱形图的比例推测,具体数据可参考附录。农业类从业人员分布图如图5-6所示:图5-6农业类从业人员分布图其中柱状图的下面部分代表个人年收入低于5万美金的人数,柱状图上面部分代表个人年收入大于5万美金的人数,图中西南区农业类从业人员总数为388人,其中个人年收入低于5万美金的人数为347人,个人年收入高于5万美金的人数为41人。西南区人数最多,其余区域的人数可根据柱形图的比例推测,具体数据可参考附录。虽然西南区和中西部的人口比例不是最高的,但由于美国的中部地势平坦,淡水资源丰富,所以例如西南区的德克萨斯州以及中西部的南北达科他州都是农业非常发达的地区,因此使得这两个地区的农业人口比例明显高于其他地区。美国的农业生产为大农场式的机械化操作,农业人口的收入高于国民平均收入,因此农业从业者个人年收入高于5万美金的人口比例也以近14%的比例高于了不到10%的各工种的平均比例。另外,根据一年中的工作周数、年龄、性别、学历等属性也获得了样本数据的分布情况,本文不再一一列举。30 第5章决策树分类结果与讨论通过不同属性分类结果的空间分布,我们可以大致总结出一些规律。位于美国东西海岸的各州人口较多,经济较发达,以纽约州,加利福尼亚州等为代表,这些州服务业更为发达,从事服务业人口较高比其余地区高出近2.5%。美国中部地区及西部部分地区,平原面积辽阔,淡水资源丰富,农业发达,农业人口比例更高,以德克萨斯州,南、北达科他州等为代表。其他的如技术类支持类职业,行政及管理类职业和专家类职业在各州比例差异和收入差异并不十分显著。总体的收入形势表现为东西海岸个人年收入高于5万美金的人群比中部地区各州高出约12%(7.2%VS8.06%)。另外一年中工作周数较少者,收入低的占绝大多数;学历为本科以下的样本个人年收入超过5万美金的不足3%;女性收入明显低于男性收入;年龄在31岁以下的年轻人收入较低;中部高收入人口比例较小等等现象对于政府进一步提高居民收入具有很好的指导意义。政府可以尝试通过继续促进就业,普及推进高等教育,进一步消除性别歧视,加强对中部地区的扶持投资力度,为年轻人创造更多的创业或升职机会来提高人口收入,促进收入均衡。30 第6章结论第6章结论本课题采用C4.5算法对美国国家人口普查局的人口与收入数据进行分类。本文对分类得到的结果进行分析,并关联空间数据进行空间知识的挖掘。致力于通过对影响收入的因素进行筛选,得到影响力较强的因素,并将以各影响因素为分类属性得到的分类结果表示到地图上,寻找区域差异,以此为个人及政府提高居民收入提供一定的参考。本文最终得到的结论可以总结为以下8点:(1)位于美国东西海岸的各州人口密集,经济较发达,服务业更为发达,从事服务业人口较高比其余地区高出近2.5%;(2)美国中部地区及西部部分地区,平原面积辽阔,淡水资源丰富,农业发达,农业人口比例更高;(3)其他的如技术类支持类职业,行政及管理类职业和专家类职业在各州比例差异和收入差异并不十分显著;(4)总体的收入形势表现为东西海岸居民个人年收入高的人群比中部地区各州高出约12%(7.2%VS8.06%)。(5)一年中工作周数较少者,收入低的占绝大多数;(6)学历为本科以下的样本个人年收入超过5万美金的不足3%;(7)女性收入明显低于男性收入;(8)年龄在31岁以下的年轻人收入较低。根据这些规律政府可以尝试通过继续促进就业,普及推进高等教育,进一步消除性别歧视,加强对中部地区的扶持投资力度,为年轻人创造更多的创业或升职机会来提高人口收入,促进收入均衡。本文主要做了以下工作:(1)对数据挖掘,空间数据挖掘,决策树分类算法和人口统计学领域中有关人口收入统计的方面进行了学习和研究;(2)为了得到更为准确和更具指导意义的分类结果,本文对原始的数据进行了细致的数据预处理,包括剔除冗余数据,缺失值过多的数据,不适用于统计收入的数据,以及对数据中属性取值过多的属性值进行合并,对于字符串数据进行数值化编码等等工作;30 第6章结论(3)通过Matlab编程实现C4.5算法,对处理后的数据进行分类,得到了判断个人年收入是否高于5万的美金的预测判断规则,并将用于分类的各属性对应的人口收入数据展示到地图上进行分析,发现一定的空间规律;(4)根据得到的分析结果,为提高收入,促进收入公平,提出了一些可供参考的建议意见。本文的不足之处主要有:(1)选取的数据集中的空间信息与收入的关联性不强,没能在分类中发掘出较为直接的影响关系;(2)对于各分类属性和收入情况与空间的关系的分析仅进行到把美国分为5个地区这个较大的尺度,没有在州等更小尺度上进行更细致的分析;(3)本文采用的分类属性较多,剪枝工作完成的不够好,生成的决策树不够简洁。未来进一步的研究可以从这三点不足出发,寻找更多与收入关系更紧密的空间数据进行分析,并在更小尺度上进行分析,得到准确度更高,更简洁的分类决策树。30 中国石油大学(华东)本科毕业设计(论文)致谢本文能够成功的完成,要特别感谢我的导师王海起老师的指导。王老师在选题和数据处理方面给我提出重要的建议和细致的指导。毕业在即,大学四年的生活如白驹过隙,大一刚刚入学时的情形仍然历历在目,仿佛就发生在昨天,而我已经在这四年里收获了太多太多的成长、知识和友谊。在此,我还要感谢所有陪伴我度过美好大学生活的老师和同学,是你们对我一直以来的关怀和帮助使我成长为了今天的模样。再此还要特别感谢我寝室的5名室友,他们分别是秦超、陈佳斌、任启飞、李庆君和卢溜,他们在大学四年的生活里给予了我无尽的关怀和包容,一直是我努力奋斗时并肩作战的战友和生活中互相帮助的好伙伴!他们的支持和鼓励使我感到自己更强大,不孤独。没有他们也不会有我今天取得的成绩。30 中国石油大学(华东)本科毕业设计(论文)参考文献[1]DENSHAMPJ,GOODCHILDMF.SpatialDecisionSupportSystems:AResearchAgenda[C].ProceedingsGIS/LIS’89Orlando,FL,1989:707-716.[2]MillerH.J.,HanJ..GeographicDataMiningandKnowledgeDiscovery.London:Taylor&Francis,2001.[3]李德仁,王树良,史文中,王新洲.论空间数据挖掘和知识发现.J.武汉大学学报(信息科学版),2001,26(6):491-499.[4]HanJ.,KamberM.著.范明,孟小峰等译.数据挖掘概念与技术.北京:机械工业出版社,2002.[5]裴韬,周成虎,骆剑承,韩志军,汪闽,秦承志,蔡强.空间数据知识发现研究进展评述.中国图象图形学报,2001,6(9):854-870.[6]KoperskiK.,HanJ.,AdhikaryJ.MiningKnowledgeinGeographicalData.CommunicationsofACM,1998,26(1):65-74.[7]ShekharS.,LuC.T.,TanX.,ChawlaS..MapCube:avisualizationtoolforspatialdatawarehouses[C].London:TaylorandFrancis,2001.[8]McGarigleB.GISontheTrailofDangerousDiseases[J].GeoInfo,http://www.govtech.net/magazine/gt/1996/aug/aug1996-geoinfo/aug1996geoinfo.php,1996.[9]林玲玲.基于C4.5算法的高血压分类规则提取的研究.http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=1&CurRec=10&recid=&filename=1012380455.RWJQ3RGgxVDNxVHJXTTFGckNVUkw2ZlllZHY=,2012.[10]云玉屏.基于C4.5算法的数据挖掘应用研究.http://www.cnki.net/KCMS/detail/detaix?QueryID=1&Cur=9&recid=&filename=2008161.nh&dbname=CMFDde=CMFD&pr=&urlid=&yx=&v=MTw2Zlk=,2008[11]QuinlanJR.InductionofDecisionTree[J].MachineLearning,1986,1(1):81—106.30 中国石油大学(华东)本科毕业设计(论文)附录附录A按工种分类各区域人口收入分布表表A-1美国东北区人口收入分布图occupationserviceadmintechProfarmtotal3601531489270121498210<50,000$3409229353252971346168>50,000$19232136171515242表A-2美国中西区人口收入分布图occupationserviceadmintechProfarmtotal278942103519231985291<50,000$265371988218078892264>50,000$1357142611539327表A-3美国西北区人口收入分布图occupationserviceadmintechProfarmtotal3189728756203451139305<50,000$3037027068191741018274>50,000$15271688117112131表A-4美国西南区人口收入分布图occupationserviceadmintechProfarmtotal2652123780201391320388<50,000$2518021989188881191347>50,000$1341179112511294130 中国石油大学(华东)本科毕业设计(论文)表A-5美国东南区人口收入分布图occupationserviceadmintechProfarmtotal3017328492242091433342<50,000$2862326615227561295299>50,000$15501877145313843附录BC4.5决策树算法流程图图B-1C4.5决策树算法流程图30