注册建造师信用评价模型研究

ID：78225906

大小：535.03 KB

页数：60页

时间：2024-02-06

上传者：笑似︶ㄣ無奈

资源描述：

《注册建造师信用评价模型研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

注册建造师信用评价模型研究ModelStudyonCreditScoringofRegisteredConstructor学科专业：管理科学与工程研究生：马云飞指导教师：王雪青教授天津大学管理学院二零零八年五月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：签字日期：年月日我是爱天大的！！学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。（保密的学位论文在解密后适用本授权说明）学位论文作者签名：导师签名：签字日期：年月日签字日期：年月日摘要针对传统注册建造师信用评价方法的缺陷，即大多仅停留在定性的分析，无科学的评价指标体系和评价模型，本文尝试在制定注册建造师信用评价指标体系的基础上，采用统计学习理论中最新的支持向量机方法建立信用评价模型，利用该方法支持小样本学习和良好的泛化性的优点，改进注册建造师信用评价方法。本文提出注册建造师信用评价指标体系应包括执业信用指标和个人信用指标两大部分，以保证指标体系的全面性和科学性。其中，执业信用指标分为良好行为记录认定标准和不良行为记录认定标准，后者按住房与城乡建设部建设市场各行为主体的不良行为记录认定标准的编号规则设置。个人信用指标作为执业信用指标的有力补充。本文采用支持向量机方法建立注册建造师信用评价模型，首次将此方法应用到注册建造师的信用评价，采用LIBSVM2.86作为主要建模工具，对样本数据进行网格5折交叉确认法进行核函数和核参数选择。经过四种核函数的5折交叉确认准确率的比较，最后选择准确率最高的径向基函数作为该数据的支持向量机核函数，印证了前文所述的径向基函数作为核函数的优越性。关键词：注册建造师；信用评价；指标体系；支持向量机；LIBSVM2.86 ABSTRACTInordertoovercometheweaknessoftraditionalmethodsoncreditscoringofregisteredconstructor,suchasqualitativeanalysisonly,thelackofscientificcreditscoringindexsystemandmodel,thisdissertationattemptstoestablishtheindexsystemoncreditscoringofregisteredconstructorandthecreditscoringmodelbasedonSupportVectorMachine(SVM)toimprovethemethodofregisteredconstructorcreditscoring.Thisdissertationputsforwardthatpracticecreditindexandindividualcreditindexconstitutethecreditscoringindexsystemofregisteredconstructor,soastoassuretheindexsystemiscomprehensiveandscientific.Thereamong,practicecreditindexincludesgoodbehaviorrecordaccreditationstandardandbadbehaviorrecordaccreditationstandard.ThelatterisestablishedbythecodingregulationofMinistryofHousingandUrban-RuralDevelopmentofthePeople’sRepublicofChina,andtheformeristheforcefulsupplementoftheindexsystem.SVMisfirstlyappliedtobuildthemodeloncreditscoringofregisteredconstructor.ThisdissertationadoptsLIBSVM2.86asthemajormodelingtoolandusesgrid-searchtechniqueand5-foldcross-validationtoselecttheoptimalparametervaluesofvariouskernelfunctions.Bymeansofthecomparisonoffourkernelfunctionsaboutaccuracyof5-foldcross-validation,theRBFkernelfunctionisfoundouttobethemostrationalfunction,whichsupportstheexcellenceofit.KEYWORDS：RegisteredConstructor,CreditScoring,IndexSystem,SupportVectorMachine,LIBSVM2.86 目录第一章绪论..................................................................................................................11.1研究背景及意义..............................................................................................11.2研究内容和结构安排......................................................................................31.3研究方法和技术路线......................................................................................41.3.1研究方法................................................................................................41.3.2技术路线................................................................................................4第二章文献综述..........................................................................................................62.1信用的经济理论分析......................................................................................62.1.1交易费用理论与信用............................................................................62.1.2制度变迁理论与信用............................................................................72.1.3信息经济学与信用................................................................................82.2传统信用评价模型..........................................................................................82.2.1统计学方法............................................................................................92.2.2非统计方法..........................................................................................112.3国内外信用评价模型研究现状....................................................................152.4国内外支持向量机方法的研究现状............................................................17第三章注册建造师信用评价指标体系设计............................................................193.1注册建造师信用评价指标体系设计原则....................................................193.2注册建造师信用评价指标体系设计............................................................193.2.1执业信用指标......................................................................................203.2.2个人信用指标......................................................................................243.2.3注册建造师信用评价指标体系..........................................................25第四章基于支持向量机方法的注册建造师信用评价模型设计............................264.1支持向量机方法原理....................................................................................264.1.1线性可分问题......................................................................................264.1.2近似线性可分问题..............................................................................294.1.3线性不可分问题..................................................................................324.2基于支持向量机方法的建造师信用评价模型设计....................................344.2.1数据预处理..........................................................................................354.2.2核函数及参数选择..............................................................................35 4.2.3模型训练..............................................................................................374.2.4模型应用..............................................................................................37第五章实证分析........................................................................................................385.1实验设计........................................................................................................385.1.1数据预处理..........................................................................................385.1.2核函数及参数选择..............................................................................395.1.3模型训练..............................................................................................445.1.4模型应用..............................................................................................455.2与神经网络模型的比较研究........................................................................45第六章结论与展望....................................................................................................466.1结论................................................................................................................466.2展望................................................................................................................47参考文献......................................................................................................................48发表论文和参加科研情况说明..................................................................................53致谢......................................................................................................................54 第一章绪论第一章绪论1.1研究背景及意义现代市场经济是信用经济，其市场交易绝大部分是建立在信用的基础之上的，是以信用为中介的。因此，信用是现代市场交易的一个必备的要素，信用问[1]题是建设有中国特色社会主义市场经济所必需解决的一个重要问题。2007年10月24日胡锦涛主席在党的十七大上的报告中明确指出：“完善基本经济制度，健全现代市场体系，……，健全社会信用体系。”然而在我国，很多方面都存在着信用缺失现象。企业之间不履行合同，企业对银行不履行还债业务，假冒伪劣商品充斥市场，股市、基金黑幕重重，欺诈、[2]诈骗大行其道，政府信用亟待提升等等。这些普遍存在的信用缺失现象已严重影响了经济改革和社会发展，无信现象受到人们的广泛关注，建立健全社会信用体系已成为全社会的呼声。2008年3月5日温家宝总理在十一届全国人大政府工作报告中明确指出：“在推进改革开放中，要加快现代市场体系建设，大力发展现代流通，深入整顿和规范市场秩序，推进社会信用制度建设。”正是因为社会信用在整个经济发展和社会进步中所处的重要地位，所以，我国目前社会信用缺失问题日益成为学术界和决策层的关注对象。近年来，建筑业作为国民经济支柱产业的地位愈加凸显。2007年全社会建筑业实现增加值14014亿元，比上年增长12.6%，占GDP的2.68%。2007年全社[3]会固定资产投资137239亿元，比上年增长24.8%。随着我国建筑市场开放程度的提高和建筑企业国际化进程的加快，建设行业要实现又好又快的发展，必须由粗放型经济增长方式向集约型方式转变，要建立一套交易成本低、市场运行机制健全、信息灵敏、市场扩展快的制度。法律和信用是维持市场有序运转的两个重[4]要基本机制，相比于法律，信用机制是一种成本更低的机制，因此，信用制度成为当前制度建设的重要切入点。建筑市场涉及面广，交易额大，可变因素多，但由于缺乏必要的制度约束，造成了建筑市场信用关系的严重扭曲和信用缺失行为的泛滥。从业主到总承包商、分包商，再到项目经理、施工队，层层拖欠，形成了一个复杂的“债务”连环套。政府作为公共权力的代理人，行使建筑市场监管职能，其失信行为引发了工程建设领域大量的腐败案件。承包商的失信行为引发了工程质量低下、安全事故1 第一章绪论频发现象。由此可见，建筑市场的信用缺失和失信行为，对我国国民经济和投资建设效益造成重大影响，不仅加大了企业的经营成本与风险，败坏了社会风气，[5]更使全社会资源使用效率低下，成为制约生产力发展的“瓶颈”。全国建设工作会提出：“要大力推进建筑市场信用体系建设，构建诚信信息平台，完善失信惩戒机制”。当前，信用体系建设作为进一步规范建筑市场秩序的治本之策，已经成为各方的共识。2008年2月27日，建筑业企业项目经理资质管理制度向建造师执业资格制度过渡的时间结束，项目经理资质证书停止使用，大、中型工程项目施工的项目经理必须由取得注册建造师证书的人员担任。我国建筑业从业人数约占全世界建筑业从业人数的25％，但对外工程承包额却仅占国际建筑市场的1.3％。原因固然很多，但缺乏高素质的施工管理人员是重要原因。因此，建立建造师执业资格制度也是与国际接轨、开拓国际建筑市场的客观要求。我国现有项目经理、工程管理人员的素质整体偏低。一直以来，我国建筑行业施工企业主要是通过短期的培训后经考试合格就能获得项目经理资格。如果施工企业的资质等级高，项目经理就可以随着时间的推移获得较高级别的项目经理的资格，所以项目经理资格等级的高低不取决于项目经理的管理水平，而是取决于企业的发展需求。这样的选拔规则很难保证项目经理拥有较高的理论水平和管理素质，最终导致现有项目经理的素质和管理水平参差不齐，目前许多年龄较大[6]的项目经理的专业理论水平和文化程度偏低。另外，很多受过高等教育拥有较好理论功底的高校毕业生不愿意从事建筑项目工程管理一线工作，而倾向于在建筑行业的行政管理机关和投融资单位工作，造成我国大量建筑类专业毕业生流失。项目经理人职业能力不足，导致了不少工程预算失控、建设质量不过关等现实情况的出现。根据建设部的统计资料显示，高级项目管理人才在人数上远不能满足市场需求。以上原因导致在我国建筑市场中，注册建造师信用的缺失所致的不良行为屡见不鲜。从这些不良行为的表现来看，大致可以分为四类：(1)资质方面。这类不良行为指注册建造师在资质方面不合相关法律法规规定的情况下，擅自执业的不良行为。如未依法取得相应的执业资格证书或超出执业范围和聘用企业业务范围从事执业活动的，以欺骗、贿赂等不正当手段取得注册证书的等等。(2)执业方面。这类不良行为指注册建造师在执业规则方面违反相关法律法规的行为。如同时在两个或者两个以上企业受聘并执业，同时担任两个及以上建设工程施工项目负责人等等。2 第一章绪论(3)工程质量和安全方面。注册建造师所负责的工程的质量和安全是检验其执业成果的很重要的指标之一。这类不良行为包括未按照国家法律法规、工程建设强制性标准组织施工，工程施工不符合国家有关质量、安全、环保、节能等有关规定等等。(4)其他方面。此类不良行为包括未按照国家劳动用工有关规定，规范项目劳动用工管理，切实保障劳务人员合法权益等等。以上提到的种种不良行为，导致一系列不良后果的产生，给建筑市场的秩序造成恶劣的影响，同时这些不良行为所直接带来的工程隐患也给人民的生产生活安全带来很大威胁。所以，注册建造师的信用缺失问题是当前工程建设领域亟需解决的重大问题，必须予以重视。自2002年12月5日人事部、建设部联合下发了《建造师执业资格制度暂行规定》，标志我国建立建造师执业资格制度的工作正式启动以来，建设部又先后出台了《建筑市场诚信行为信息管理办法》、《注册建造师管理规定》、《注册建造师执业管理办法》（试行）等一系列约束注册建造师执业过程中行为的相关法规，以及还在征求意见的《注册建造师信用档案管理办法》。近年来，全国各级建设行政主管部门都在建立注册建造师的信用管理评价体系，但多停留在定性的判定，最多引入粗略的打分机制，并无太多科学依据，尤其在对建造师的信用评价模型上几乎没有深入研究和进展。针对此问题，本文致力于对注册建造师信用评价模型进行深层次研究，以便对注册建造师的信用评价做出模型支持。1.2研究内容和结构安排本文分六章，其中第三章和第四章是论文的主体部分。第一章为绪论，介绍了本论文的研究背景、研究意义，研究内容，研究方法，并构建了论文的技术路线，勾勒出论文的整体轮廓。第二章为文献综述。在对大量文献的阅读和理解的基础上，先用多种经济理论对信用进行了分析，然后把传统信用评价模型分为统计学方法和非统计学方法两类进行比较研究，之后对国内外信用评价模型研究现状进行了介绍，最后对国内外支持向量机方法的研究现状进行了综述。第三章为注册建造师信用评价指标体系设计。先从设计原则上对注册建造师信用评价指标的设计进行了提纲挈领的把握，然后创新性的把注册建造师信用评价指标分为执业信用指标和个人信用指标两方面来进行阐述，组成最终的注册建造师信用评价指标体系。3 第一章绪论第四章为基于支持向量机方法的注册建造师信用评价模型设计。先对支持向量机方法进行了介绍，然后对注册建造师信用评价模型的建立按步骤进行了详细说明，建立起了基于支持向量机方法的注册建造师信用评价模型。第五章为实证分析。通过实际数据对支持向量机方法在信用评价方面的作用进行了验证，并优选出了适合该数据的核函数和参数组合。最后与人工神经网络方法进行了对比，证明了支持向量机方法的优越性。第六章为本文的结论与展望。1.3研究方法和技术路线1.3.1研究方法本文采用的研究方法主要有：(1)理论研究方法本文旨在建立针对建造师信用评价的指标体系和模型，因此在写作过程中特别注重理论分析和研究。在大量地阅读相关领域文献的基础上，首先用多种经济学理论对信用进行了分析研究，得出信用在各经济学理论中的重要性，也为论文中指标体系的建立和模型的设计提供了理论支持。(2)对比研究方法对比的方法是研究问题最常用，往往是最有效的方法。本文按照可比条件下的横比和纵比相结合的比较原则，在对信用的理论分析中，对各种经济学理论进行了对比研究；在模型选择过程中，对支持向量机方法和神经网络方法进行了横向对比研究，对支持向量机方法中的参数选择也进行了纵向对比研究，充分说明了所选模型和参数的科学准确性。(3)实证研究方法本文所提到的基于支持向量机方法的信用评价研究更多的是一个应用层面的研究，合理的实证研究更能增加其科学实践性。论文把从现实中得来的统计数据用于模型选择，通过实证研究阐述了本文所用的方法及软件的具体特性，证实了最终确定的模型的可靠性和适用性。1.3.2技术路线本文的技术路线逻辑清晰，大体的思路是：把支持向量机理论应用于注册建造师的信用评价上。具体技术路线如图1-1所示。4 第一章绪论文献资料阅读构建论文基本框架文献综述对信用的经济理论分析传统信用评价模型对比研究国内外信用评价模型研究现状国内外支持向量机方法研究现状注册建造师信用评价指标体系设计基于支持向量机方法基于径向基核函数的的信用评价模型设计支持向量机方法实证分析基于LIBSVM的数值分析总结与展望图1-1本文的技术路线5 第二章文献综述第二章文献综述在对大量文献的阅读和理解的基础上，先用多种经济理论对信用进行了分析，然后把传统信用评价模型分为统计学方法和非统计学方法两类进行比较研究，之后对国内外信用评价模型研究现状进行了介绍，最后对国内外支持向量机方法的研究现状进行了综述。2.1信用的经济理论分析信用在经济社会中起了非常重要的作用，我们可以根据现代经济学中的诸多分支，如交易费用理论、制度变迁理论、信息经济学及“委托—代理”理论等进[1]行不同角度的阐述和分析。当然，以上各种理论在经济逻辑上是彼此相通的。2.1.1交易费用理论与信用信用的维持从本质上看是一种降低交易费用的手段，因此，要说明信用维持对一个经济机体和社会机体的重要性，必须着眼于交易费用。就交易费用理论来看，信用在经济社会中的地位在于它能有效地降低交易费用，从而使交易顺利进行，市场顺利运作。这又体现在两个方面，即对外生交易费用和内生交易费用的降低。一个比较稳定的社会信用体系的形成将使可能出现的高交易费用在很大程度上被降低和克服：社会信用体系的存在和个体信用在交易中扮演的越来越重要的角色将在很大程度上修正个体的成本—收益函数，从而使社会整体理性日益趋于突破有限理性边界；在一个持续不断的交易流中，个体的履约状况和守信情况将以其商誉及其社会信用等级的方式被记录下来，从而使其机会主义行为动机因可能影响其未来商誉进而影响其未来收益而受到很大程度的抑制；社会信用体系的存在会在一定的程度上弱化未来的不确定性，换言之，在一个比较完善的社会信用体系和法律体系框架下，交易双方的行为变得更容易预期，进而使交易的后果和后续交易的展开也变得更容易预期；商誉和履约记录在社会交易中日益重要的地位将在很大程度上抑制在个别交易中数量占优方对居劣方的违约利益侵犯，从而使因这一因素造成的高交易费用在一定程度上削减。以上四个方面的交易费用削减基本上发生在内生交易费用范畴。简言之，社会信用体系的构建和运作是6 第二章文献综述降低内生交易费用，保证交易规模，从而维持市场作为有效的经济组织形式的重要条件。社会信用体系以及与之相辅相成的法律体系的有效发挥作用，将给违约者以适当的惩罚，从而保证守约者的合法权益受到有力保护，进而在一个经济体内形成一种重信守约的良好环境。这一社会环境的形成将使交易双方在议定和执行契约时不一定要花费很大的精力和时间去试图罗列所有可能出现的意外来保证不确定性被控制在最小范围之内。社会共信的默示作用将把许多明文契约无法罗列的状况和在此情况下双方的权利义务及合法产权的保护进行默示性规定，而法律规范则进一步将一些客观状况下交易双方的权利义务以法律条文的形式进行规定，这在很大程度上减少了交易双方的后顾之忧。于是，对于微观经济个体而言，其单笔交易的外生交易费用得到切实有效的降低，交易的速度则得到很大的提高；对宏观市场运行而言，则有利于降低整个交易体系的外生交易费用，提升交易的频率，从而使市场更平稳、更高效的运行。综合上面的分析，一个完善、稳定的社会信用体系框架的存在将在很大程度上削减交易过程中不可避免的内生和外生交易费用，从而使社会交易得以顺畅进行核持续扩展，市场机制得以继续发挥作用，从而使整个经济体因交易的扩展而不断完善、发展。2.1.2制度变迁理论与信用制度变迁理论认为，制度的出现乃至嗣后的不断创新和变迁，使人们达成了在交易时进行合作的共识，约束了交易双方的权利义务关系，减少了交易的不确定性，从而减低了交易成本，推进了分工演进。新制度经济学者对不同层次上的制度进行了比较系统的区分：制度环境、制度结构和制度安排。信用作为“一种社会游戏规则、一种人类设定来限制他们的行为互动的局限条件”，理所应当被视为一种“制度”，而其本身包含的丰富内涵则决定了它是一种“制度结构”。一个社会信用体系的构成，就制度意义上看，有正式规则，即法律明文规定或经济生活中自发形成并得到法律默认的各种授信制度；有非正式规则，即为授信双方或多方所默认的遵守契约、履行契约等不言自明的认识；也有实施机制，即由法律或契约规定的各种授信制度的贯彻方式和对失信行为的惩罚。三者之中，正是规则的变迁和演进最为活跃，实施机制的变迁总是落后于正式规则，而非正式规则的演变则更在其后。如果说作为制度结构的社会信用体系在经济体的演进变迁中以及仍在进行的秩序扩展中起了不可替代的作用的话，那么，作为制度环境的社会信用观念则7 第二章文献综述在更长远、更深层次的意义上决定了社会信用体系的特点和演进方向，从而对经济体的演进变迁产生重大影响。2.1.3信息经济学与信用由于信息不对称的广泛存在，在经济交易过程中就总是存在着“委托—代理”关系，信息经济学研究的重点就在于在各种条件的委托框架下交易双方如何作为，以使交易顺利展开。表2-1信息不对称理论基本框架非对称信息内容隐藏信息（知识）隐藏行动非对称信息发生时间事前信息不对称逆向选择模型—事后信息不对称隐藏信息的道德风险模型隐藏行动的道德风险模型信息经济学研究的重点在于委托人应如何制定合理的激励约束合同来有效消除代理人的代理风险。要实现这一目的，一个稳固、有效的社会信用体系的存在是保证这个激励合同能够被贯彻执行的必备前提。如果说交易费用理论是以经济人的有限理性假设为理论前提的，那么信息经济学则是进一步从信息的意义上揭示了有限理性的根本原因。经纪人之所以仅具有有限理性，是因为信息不对称是广泛存在的。就交易费用理论角度看，信用在经济社会中之所以占有非常重要的地位，是因为它能有效地削减交易中不可避免要发生的交易费用，从而使交易得以更顺畅的继续、扩展；就信息经济学角度看，信用在经济社会中的地位仍是不可替代的，甚至可以这样说，整个信息经济学都是建立在一个稳定可靠的社会信用体系基础上的。无论是逆向选择模型还是道德风险模型，社会信用体系的存在和有效性都是其立论基础，缺乏了这一必要前提，各种模型化研究都将不具有现实意义。2.2传统信用评价模型信用评价实质上是将一个总体按照不同的特征分成若干个不同组，随着市场竞争的加剧以及计算机技术的发展，越来越多的计量方法被运用到信用评价领域[7]，而大部分的信用评分模型都是其中的一种方法或将几种方法结合起来使用。[8]现将传统信用评价分为统计学方法和非统计学方法两类进行比较研究。8 第二章文献综述2.2.1统计学方法统计学方法包括回归分析、判别分析和k-近邻判别等。1.回归分析[9]在信用评价中，回归分析的种类有四种：(1)线性回归线性回归与线性判别分析在形式上非常相似，试图用评价指标的线性组合来揭示消费者的违约概率问题。其表达式可以写成：nZ=+CX0∑αii(2-1)i=1C为一常数。0线性回归主要应用于信用评分的两类划分问题（信用好和信用不好），其指标权重系数可以用最小二乘法得到。Orgler（1971）把回归分析应用于消费者贷款，并分析设计了一个评价未偿还贷款的分值卡。由于未偿还贷款包含了消费者的行为信息，他发现消费者的行为特征比申请表特征更能表明贷款的未来质量。(2)逻辑回归逻辑回归是一种非线性分类的统计方法，用于因变量为定性指标的问题，基本假设是似然比的对数是属性的线性回归，其基本函数关系可以表示为：(LXH(1))nln=+CX0∑αii(2-2)()LXH()2i=1H和H分别为信用好和不好两类人，L为似然函数。12逻辑回归对训练样本要求表示成好坏两类人群即可，而结果都能得到精确的分值，实际上这个分值被认为是属于好（或不好）的概率。逻辑回归不要求LDA的假设，但满足LDA的假设时，二者等效或优于LDA，而且逻辑回归在处理纲目数据上有一定的优越性。(3)Probit回归和Tobit回归另外两种非线性回归的方法是Probit回归和Tobit回归。Probit回归把逻辑回归中的似然比对数函数改变为正态分布函数的反函数，其模型为：p−1NpC()ii=+0∑αxij(2-3)j=19 第二章文献综述Tobit模型可以表示为：⎧⎪⎧p⎫⎫⎪pxii=min1,max⎨⎨⎬∑αij,0⎬(2-4)⎩⎭⎪⎩⎭j=1⎪x为待估消费者i的第j个属性，N为正态函数，p为概率。ijiGrablowsky和Talley（1981）在信用评分中使用了Probit模型并与差别分析进行了比较，结论是前者较好。两者得出的都是属于好或者不好的概率值，但在实际中，由于决策者关心的是在不太清楚的条件下如何做出正确的决策，而不是确定一个信用不好的人的概率究竟是0.05还是-0.05，这使得上述两种回归在实际的信用评分中并不常用。[10]2.判别分析判别分析是一种用来区分、判断个体所属类别的统计技术，它的目标是把一群个体分成两个或多个预先确定的小组，然后判断和预测新的个体应该属于哪一个小组。比如，判断信用年账户未来付款表现属于“好”或“坏”两组中的哪一组，判断市场营销的目标对象属于“高度可能反应”、“中度可能反应”、“低度可能反应”三组中的哪一组等。判别分析在市场营销分析、信用风险评分模型等领域都可以应用。判别分析的步骤一般如下：第一，把样本按目标变量分成预先界定的若下小组；第二，按照一定的数学最优算法，对每一小组样本发展出一个判别函数（DiscriminantFunction），该判别函数是预测变量的线性组合；第三，对新的个体计算其每一组判别函数的值（评分），分值最高的函数值表明这个新的个体应属该小组。对于进入线性判别函数中的预测变量（自变量）的选择，可以由分析人员根据经验选择，也可以由计算机的stepwise程序自动选择。判别分析中的stepwise程序与逻辑回归中的stepwise程序原理类似，预测变量被不断地自动加入模型中或被从模型中删除，直到模型达到统计意义上的最优化。判别分析技术的优点：适用于二元性或多元性目标变量，能够判断、区分个体应该属于多个不同小组中的哪一组，而逻辑回归只能预测二元性的目标变量。判别分析技术的缺点：(1)假设自变量的分布为正态分布，而实践中的数据往往不是完全的正态分市。尽管判别分析对轻微的偏离正态分布具有一定的抗震荡性，但严重的偏离可能导致统计结果的不可靠性；10 第二章文献综述(2)如果使用stepwise功能，则有过分微调的可能；(3)多维相关性可能导致模型的不稳定性和不可靠性。[11]3.k-近邻判别k-近邻判别分析方法的基本思想是：假定有c个类别为www,,,,…w的样123c本集合，每类有标明类别的样本N个，ic=1,2,…,.i设样本的指标有z个，则样本点的指标将可以构成一个z维特征空间，所有的样本点在这个z维特征空间里都有惟一的点与它对应。则对任何一个待识别的样本x，把它也放到这个z维特征空间里，通过构造一个距离公式（一般采用欧氏空间距离公式），可以找到样本x的k个近邻。又设这N个样本中，来自w类1的样本有N个，来自w类的样本有N个，…，来自w类的样本有N个。若122cckkk,,,,…k分别是k个近邻中属于www,,,,…w类的样本数，则我们可定义123c123c判别函数为：gxki()==,1,2,,…c(2-5)ji分类规则是，若gx()=maxk(2-6)ji则分类x属于w。j这一方法的直观解释相当简单，对未知样本x，我们只要比较x和N个已知类别样本之间的距离，并判定x和离它最近的样本同类。k-近邻判别的方法的主要特点在于它的非参数的特点使得在特征变量空间上对于不规则变量的建模成为可能，与此同时，当数据为多维时，k-近邻判别的功能被认为优于其他非参数估计方法，比如它可以避免判别分析方法中存在的参数估计的样本偏差问题，也可以避免分类树方法中当问题的复杂性增加时分类树模型经常会出现的组合爆炸问题。2.2.2非统计方法1.线性规划将线性规划方法应用在信用评分时，其结果依然是产生一个线性评分卡。其基本思路可以这样来描述：假设：我们有一个样本，其中有n个好客户（将其标记为in=1,2,…,）、nGGB个坏客户（将其标记为in=++1,n2,…,nn+）；我们可以从客户的申请表中GGGB得到m个预测变量，因此客户i的特征项向量为x,,,,xx…x.iii123im在一个最理想的信用评分中，我们的目的是找到一组权重wj()=1,2,…,mj11 第二章文献综述以及一个临界值c，使得：对一个好的客户，满足：wx+wx++"wx>c11ii22mim(2-7)对一个坏的客户，满足：wx+wx++"wx0，来综合这两个基本目标，就得到下面i=1的优化问题：l12minwC+∑ξi,(4-17)wb,,ξ2i=1st..y⎡⎤(wx⋅+≥−=)b1ξ,i1,2,,,…l(4-18)ii⎣⎦i0,ξ≥=il1,2,…,.(4-19)i其中C为可调参数，C越大表示对错误分类的惩罚越大。这是一个二次规划问题，其最优解为下面拉格朗日函数的鞍点：lll12Lwb(),,α=+−wCξα⎡⎤ywx()()⋅+b+ξ−1−βξ(4-20)2∑ii∑∑⎣⎦iiiiiii==11i=1其中，α≥≥0,β0为拉格朗日乘子，由于在鞍点处的w、b和ξ的梯度为零，因ii此可得ll∂L=−wy∑∑ααiiixwy=⇒=0iiix(4-21)∂wii==11ll∂L==∑∑ααiiyy00⇒=ii(4-22)∂bii==11∂L=−−=Cαβ0(4-23)ii∂ξi将式(4-21)-(4-23)代入式(4-20)，并对它关于α求最大，得到(4-17)-(4-19)的对偶最优化问题lll1max∑∑ααii−⋅∑αjyyxxij()ij,(4-24)α2ii==11j=1lst..∑αiiy=0,(4-25)i=10,≤α≤=Ci1,2,…,l.(4-26)i30 第四章基于支持向量机方法的注册建造师信用评价模型设计求解问题(4-24)-(4-26)得到的α中，α可能是：①α=0；②0<<αC；iiii③α=C。后两者所对应的x为支持向量。在支持向量中，α=C所对应的x位iiii于边界上，称为边界支持向量（BoundarySupportVector,BSV）；0<<αC所对i应的x位于间隔内，称为标准支持向量（NormalSupportVector,NSV）。根据iKKT条件知，在最优点，拉格朗日乘子与约束条件的积为0，即αξ⎡⎤y()()wx⋅++−==b10,1i,2,,…l(4-27)ii⎣⎦ii0,βξ=il=1,2,…,.(4-28)ii对于标准支持向量（0<<αC），由式(4-23)可知β>0，则由式(4-28)得到ξ=0，iii因此，对于任一标准支持向量，满足ywxb⎡(⋅)+=⎤1(4-29)ii⎣⎦所以b为bywxy=−⋅=−ii()ij∑αyxxxJj(i⋅j),i∈N(4-30)xJj∈其中JN为标准支持向量的集合，J为支持向量的集合。为了计算可靠，可以对所有标准支持向量分别求b的值，然后求平均。式(4-18)-(4-19)的约束条件约束了wb,使得经验风险误差为0，同时最小化w，使VC维最小，因此问题(4-17)-(4-19)的最优化体现了结构风险最小化原则，具有较好的泛化能力。根据上面的分析与推导，得出求解近似线性可分问题的支持向量分类机的具体步骤如下：算法4-2近似线性可分支持向量分类机n1.已知训练集Tx==∈{(),,1yi,2,,,……lxR},y∈{+1,1−},1i=,2,,l；iiii2.选取适当的惩罚参数C，构造并求解优化问题(4-24)-(4-26)，得到最优解T****αα=()12,,,αα…l；l**3.计算wy=∑αiiix；i=1l****4.选择α的一个介于0与C之间的分量αj，计算by=−ji∑yxxαj()i,j；i=1****5.构造分类超平面(wxb⋅+=)0，由此求得决策函数f()xw=⋅sgn⎡(x)+b⎤。⎣⎦从上面分析可知，支持向量分类机中计算的复杂度不取决于空间维数，而是取决于样本点数，尤其是支持向量数，因此支持向量分类机可以有效地处理高维问题。31 第四章基于支持向量机方法的注册建造师信用评价模型设计4.1.3线性不可分问题对于图4-3所示的问题，无论用任何一条直线去划分都会错分很多训练样本点，这类问题被称为线性不可分问题，这时就得使用非线性分类学习机来求解。图4-3线性不可分问题对于线性不可分问题，支持向量机的思想是：通过引进一个非线性映射ϕ，将低维的输入空间中的线性不可分问题，转化为高维的特征空间中的线性可分问题，在高维的特征空间中，就可以利用线性分类学习机。如图4-3所示的问题，对于这类问题，显然不能用超平面去划分，而需要用“超曲面”来代替。而寻找超曲面的过程非常困难，通常引入一个非线性映射函数ϕ将输入空间映射到一个高维特征空间，nϕϕ:x⊂→⊂Rx()H(4-31)其中H为特征空间。在特征空间构造线性划分，此时分类超平面为：⎡⎤⎣⎦wxb⋅ϕ()+=0(4-32)其中wHbR∈∈,为下面最优化问题的解l12minwC+∑ξi,(4-33)wb,,ξ2i=1st..y⎡⎤(w⋅+ϕξ(x))b≥1−,i=1,2,,,…l(4-34)ii⎣⎦i0,ξ≥=il1,2,…,.(4-35)i相应的对偶问题为：lll1max∑∑ααii−∑αjyyKxxij()i,j,(4-36)α2ii==11j=132 第四章基于支持向量机方法的注册建造师信用评价模型设计lst..∑αiiy=0,(4-37)i=10,≤α≤=Ci1,2,…,l.(4-38)i其中Kxx(),,=(ϕϕ()x()x)称为核函数，通过求解对偶问题来确定最终的决策ijij函数：l⎡⎤f()xy=sgn⎢∑αiiK(xi,x)+b⎥(4-39)⎣i=1⎦根据上面的分析与推导可知线性不可分问题的支持向量分类机的步骤如下：算法2-3线性不可分支持向量分类机（C-SVM）n1.已知训练集Tx==∈{(),,1yi,2,,,……lxR},y∈{+1,1−},1i=,2,,l；iiii2.选取适当的核函数Kxx(),和惩罚参数C，构造并求解优化问题(4-36)-(4-38)，得到最优iT****解αα=(),,,αα…；12ll**3.计算wy=∑αiiix；i=1l****4.选择α的一个介于0与C之间的分量αj，计算by=−ji∑yxxαj()i,j；i=1l**5.构造分类超平面∑αiiyKxx()i,0+b=，由此求得决策函数i=1l⎡⎤**f()xy=+sgn⎢⎥∑αiiK(xi,x)b。⎣⎦i=1这就是支持向量分类机。概括地说，支持向量分类机就是首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间，在这个空间中求（广义）[69]最优分类面。SVM分类函数形式上类似于一个神经网络，输出是s个中间节点的线性组合，每个中间节点对应一个支持向量，如图4-4所示。y输出（决策规则）s⎧⎫yy=sgn⎨∑αiiK()xi,x+b⎬⎩⎭i=1α11yα22yαsys权值αiiyK()xx1,K()xx2,K(xxs,)……基于个支持向量机sx12,,,xx…s的非线性变换（内积）12d输入向量x=()xx,,,…x……123dxxxx图4-4支持向量机示意图33 第四章基于支持向量机方法的注册建造师信用评价模型设计[66][68][69][67]只要函数Kxx(,)满足Mercer条件，都可以作为核函数。可以证明，i如果核函数Kxx(),选取的适当，可将输入空间中的线性不可分问题转化为特征i空间中的线性可分问题。由式(4-36)-(4-39)可知，尽管通过非线性函数将样本数据映射到具有高维甚至无穷维的特征空间，并在特征空间中构造最优分类超平面，但在求解最优化问题和计算决策函数时并不需要显式计算该非线性函数，而只需要计算核函数，从而避免特征空间维数灾难问题。[70]常见的核函数有：(1)线性核函数Kxx(,)=(xx⋅)，(4-40)ijij(2)多项式核函数dKxx(),,=⎡⎤γγ(xx⋅+)r>0，(4-41)ij⎣⎦ij其中，d为多项式阶数，γ、r为用户选择的常数；(3)径向基核函数（RBF）2Kxx(),e=xp−−γγxx,0>；(4-42)ij(ij)其中，γ为用户选择的常数。(4)Sigmoid核函数Kxx(),t=anh⎡γ(xx⋅+)r⎤(4-43)ij⎣ij⎦其中，γ、r为用户选择的常数。4.2基于支持向量机方法的建造师信用评价模型设计本文根据支持向量分类机方法的原理，对我国注册建造师的信用进行模型设计和评价。目前有关SVM计算的相关软件有很多，如LIBSVM、mySVM、SVMLight等，本文使用LIBSVM2.86（该软件最新版本，2008年4月1日编译完成）进行基于SVM方法的注册建造师信用评价模型设计。LIBSVM是台湾大学林智仁（LinChih-Jen）等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用；该软件还有一个特点，就是对SVM所涉及的参数调节相对比较34 第四章基于支持向量机方法的注册建造师信用评价模型设计少，提供了很多的默认参数，利用这些默认参数就可以解决很多问题；并且提供了交互检验（CrossValidation）的功能。4.2.1数据预处理1.数据格式转换数据格式转换指把获取的注册建造师的信用数据按照LIBSVM2.86软件包所要求的格式准备成数据集，其格式如下：::...其中是训练数据集的目标值，它是标识某类的整数。是以1开始的整数，可以是不连续的；为实数，也就是我们常说的自变量。此过程可以用Excel中的宏来完成。2.数据缩放[70]在运行程序之前的数据缩放十分重要。数据缩放有两个突出的作用：(1)避免一些特征值范围过大而另一些特征值范围过小；(2)避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。因此，通常将数据缩放到[-1,1]或者是[0,1]之间。4.2.2核函数及参数选择1.核函数的选择大体上看，在分类问题上，除了几种特殊情况外，都会选择径向基核函数。原因有以下几点。与线性核函数相比，径向基核函数可以将低维的输入空间通过非线性变换映射到高维的特征空间，从而解决线性不可分问题。而且，线形核函数可以看作是径向基核函数的一种特殊情况，在解决线性问题时，两种核函数有着同样的作用。另外，Sigmoid核函数在确定参数时，与径向基核函数表现相似。第二，多项式核函数比径向基核函数有更多的超参数，会使得模型选择变得复杂。第三，与另外三种核函数相比，径向基核函数有更少的数字困难。在下一章中，我们会对几种核函数进行实证比较，来选择模型中所需要的核函数。2.惩罚参数C与核参数γ的选择基于径向基核函数的支持向量机（SVM）模型选择取决于两个参数的最优组合，即惩罚参数C和核参数γ。目前，如何又好又快的找到这两个参数的最优组合尚无确定的方法，本文用网格法和5折交叉确认法来选择惩罚参数C与核参数γ及预测模型的分类准确率。35 第四章基于支持向量机方法的注册建造师信用评价模型设计网格法的思路就是用“尝试”的方法来寻找比较好的参数组合。而“尝试”参n数的过程是用指数增长的方式（2）来增加与减少参数的数值，将两个参数的变化分别置于网格的相邻两边，然后交叉比对。5折交叉确认法的含义是：首先把训练数据分成5个大小大致相等的子集，然后用其中四个子集对模型进行训练，然后用第五个子集对模型进行检验，反复迭代5次。最后把5次迭代的正确分类数除以初始数据中的样本总数就是模型分类准确率。这样可以充分利用原始数据中已知的分类属性来预测模型的分类准确率，从而选择最优参数。交叉确认法可以有效防止过拟合问题。我们用图4-5来解释过拟合问题。实心的圆形和三角形表示训练数据，空心的圆形和三角形表示检验数据。在(a)和(b)图中分类不准确就是因为出现了过拟合；(c)和(d)图中的分类过程就要明显优于前两图，没有出现过拟合训练数据问题。图4-5过拟合分类器和良好的分类器36 第四章基于支持向量机方法的注册建造师信用评价模型设计4.2.3模型训练在核函数、最佳惩罚参数C与核参数γ都已选定的前提下，把已有的所有数据作为训练数据进行训练，确定图4-4中节点间的权值，形成最终的支持向量机模型。4.2.4模型应用核函数的选择、参数γ和C的选择、模型的训练全部结束后，就可以用已经建立的模型进行实际应用了。把一组获得的信用数据输入模型，模型就会自动将其分类，帮助决策者进行决策。37 第五章实证分析第五章实证分析本章根据第四章所述评价模型的建立方法，对已有数据进行实证分析，来进行支持向量机方法的核函数和参数优选，最后以支持向量机方法与神经网络方法做比较，说明前者在分类上的优越性。5.1实验设计[71]由于我国注册建造师的信用数据无法获得，文中以UCI中的德国数据为例，这个标准信用数据表信息全面，是机器学习中常用的标准数据。德国数据库中总共有1000个样本，其中正类（Goodcredit）样本700个，负类（badcredit）样本300个，每个样本24个属性（信用信息指标），为了保密的需要，所有属性都换成代号。5.1.1数据预处理将获得的德国信用数据用Excel宏处理转换成LIBSVM2.86所需格式：::...:Excel宏的编辑如下：SubFormatDataFromLibsvm()'每一列去掉属性序号以及冒号Forj=ActiveSheet.UsedRange.Columns.CountTo2Step-1Fori=1ToActiveSheet.UsedRange.Rows.CountActiveSheet.Cells(i,j)=Replace(ActiveSheet.Cells(i,j),Str(j-1)&":","")NextiNextj'将决策属性调到最后列ActiveSheet.Columns(1).CutActiveSheet.Columns(ActiveSheet.UsedRange.Columns.Count+1).SelectActiveSheet.Paste38 第五章实证分析Forj=1ToActiveSheet.UsedRange.Columns.CountActiveSheet.Columns(j+1).CutActiveSheet.Columns(j).SelectActiveSheet.PasteNextj'选中所有数据Forj=1ToActiveSheet.UsedRange.Columns.CountActiveSheet.Columns(j).ColumnWidth=16NextjActiveSheet.UsedRange.SelectEndSub然后用Libsvm的scale命令将数据缩放到[1,1]−之间：svmscale-l-1-u1german.txtLIBSVM2.86会自动生成缩放后的文件german.txt.scale。5.1.2核函数及参数选择本文通过分别在线性核函数、多项式核函数和高斯径向基核函数中，用网格5折交叉确认法来确定参数的选择，同时可以比较分类准确率得出最优的核函数。网格5折交叉确认法需要用到LIBSVM2.86中的svm-train命令，使用方法如下所示：svm-train[options]training_set_file[model_file]其中，options（操作参数）可用的选项及表示的涵义如下所示：-t：核函数类型：设置核函数类型，默认值为2，可选类型有：0—线性核1—多项式核2—RBF核3—Sigmoid核-c：设置惩罚系数C；-g：设置核参数γ；-d：设置多项式核函数中的参数d，默认值为3；-r：设置Sigmoid核函数中的参数r，默认值为0；-v：设置n折交叉验证模式。39 第五章实证分析1.线性核函数5折交叉确认从第四章中线性核函数的表达式可以看出，线性核函数中不需要设置核参数，而且如果数据线性可分的话，线性核函数的分类精确度也比较高。线性核函数5折交叉确认法LIBSVM2.86命令：svm-train–t0–c[C值]–v5german.scale输入不同的C值会对应生成不同的交叉确认准确率，结果如表5-1所示：表5-1线性核函数5折交叉确认准确率结果（单位：%）-10-8-6-5-4-3-2-10246810C22222222222222CVA70.070.073.575.976.976.877.277.477.477.377.377.377.377.3从表5-1中可以看出，线性核函数对德国信用数据的分类精确度比较高，达到77.4%，而且分类精度随C变化不太显著。从检验结果中可以看出，在C取值-210从2（0.25）到2（2048）之间有很好的分类精确度，但在检验时发现运行时间随C增加而显著增加。2.多项式核函数5折交叉确认多项式核函数的表达式中需要确定γ、C、d和r四个参数，本文仅对γ和C做交叉确认，d和r采用系统默认值。多项式核函数5折交叉确认法LIBSVM2.86命令：svm-train–t1–c[C值]–g[γ值]–v5german.scale−1010为了找到最佳的参数组合，我们对γ和C分别在[2,2]之间进行交叉确认，结果如表5-2所示。从表5-2中可以看出，多项式核函数对德国信用数据的分类精确度在表中呈现一种规律：当γ和C都比较小时，分类精度稳定在70%；当γ和C都比较大时，分类精度稳定在66.2%；而在中间部分，分类精度变化比较明显，在表中表现在“左下—右上”一线。多项式核函数对德国信用数据的分类精确度最高为76.1%，且呈规律性分布。本文未对参数d和r进行进一步讨论，这也是使用多项式核函数的一个缺点，即参数选择较复杂。3.径向基核函数5折交叉确认从径向基核函数的表达式中可以看出，只需要确定γ和C两个参数即可，使用方便。同时，由于径向基核函数使用较多，LIBSVM2.86在编译时就专门留意了在径向基核函数下，与编程语言Python-2.5.2和绘图软件Gnuplot-4.0之间的接口。用脚本与这两个软件完成接口后，可用Python-2.5.2命令调用LIBSVM2.86完成5折交叉确认，并用Gnuplot-4.0同步绘制分类精度曲线。Python-2.5.2的命令为：pythoneasy.pygerman.txt40 表5-2多项式核函数5折交叉确认准确率结果（d=3，r=0，单位：%）C-10-9-8-7-6-5-4-3-2-1012345678910222222222222222222222γ-10270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.0-9270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.0-8270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.672.6-7270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.672.675.576.174.5-6270.070.070.070.070.070.070.070.070.070.070.070.070.070.672.675.576.174.474.573.571.2-5270.070.070.070.070.070.070.070.070.070.070.672.675.576.174.474.573.571.269.367.968.5-4270.070.070.070.070.070.070.070.672.675.576.174.474.573.571.269.367.968.568.067.866.7-3270.070.070.070.070.672.675.576.174.474.573.571.269.367.968.568.067.866.766.266.266.2-2270.070.672.675.576.174.474.573.571.269.367.968.568.067.866.766.266.266.266.266.266.2-1275.576.174.474.573.571.269.367.968.568.067.866.766.266.266.266.266.266.266.266.266.20274.573.571.269.367.968.568.067.866.766.266.266.266.266.266.266.266.266.266.266.266.21269.367.968.568.067.866.766.266.266.266.266.266.266.266.266.266.266.266.266.266.266.22268.067.866.766.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.23266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.24266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.25266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.26266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.27266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.28266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.29266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.210266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.266.241 第五章实证分析经过运算，同步画出的图线为图5-1所示：图5-1径向基核函数5折交叉确认分类精度曲线同时，图5-1中还给出了最大分类准确率78.1%和得到此分类准确率时的γ和−1622C值，分别为γ=2，C=2。4.Sigmoid核函数5折交叉确认从Sigmoid核函数的表达式中可以看出，除了需要确定γ和C两个参数外，还要确定核参数r。本文仅对γ和C做交叉确认，r采用系统默认值。Sigmoid核函数5折交叉确认法LIBSVM2.86命令：svm-train–t3–c[C值]–g[γ值]–v5german.scale−1710−1018为了找到最佳的参数组合，我们对γ在[2,2]之间取值，C在[2,2]之间取−171−1018值，进行交叉确认。结果发现γ在[2,2]之间，C在[2,2]之间，数据变化明显，故仅列出这个范围内的交叉确认准确率结果，如表5-3所示。从表5-3中可以看出，Sigmoid核函数对德国信用数据的分类精确度整体来看，与径向基核函数相似，但没有径向基核函数稳定，准确率变化略大，且最大值比径向基核函数小。当γ和C都比较小时，分类精度稳定在70%；随着C的增大，分类精确度逐渐上升，规律变得不太明显。Sigmoid核函数对德国信用数−64据的分类精确度最高为77.8%，γ=2，C=2。42 表5-3Sigmoid核函数5折交叉确认准确率结果（单位：%）C-10-9-8-7-6-5-4-3-2-1012345678910111213141516171822222222222222222222222222222γ-17270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.976.976.877.277.477.477.3-16270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.976.976.877.277.477.477.377.3-15270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.976.976.877.277.477.477.377.377.3-14270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.976.976.877.277.477.477.377.377.377.3-13270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.977.076.877.277.477.477.377.377.377.377.3-12270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.977.076.877.277.477.477.377.377.377.377.377.3-11270.070.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.977.076.877.277.477.477.377.377.377.377.377.377.6-10270.070.070.070.070.070.070.070.070.070.070.070.070.070.073.575.977.076.877.377.477.477.377.377.277.677.777.477.373.1-9270.070.070.070.070.070.070.070.070.070.070.070.070.073.575.977.076.877.277.477.577.277.677.577.477.273.471.070.268.8-8270.070.070.070.070.070.070.070.070.070.070.070.073.475.977.076.977.477.477.577.477.076.773.469.569.969.368.968.968.6-7270.070.070.070.070.070.070.070.070.070.070.073.275.677.177.177.377.577.377.371.870.270.669.968.569.368.468.169.269.3-6270.070.070.070.070.070.070.070.070.070.072.875.776.977.277.877.374.371.470.167.668.668.568.868.869.667.768.967.668.4-5270.070.070.070.070.070.070.070.070.072.275.977.476.473.870.469.569.168.967.667.769.568.369.366.968.469.067.967.666.3-4270.070.070.070.070.070.070.070.070.875.572.668.667.565.366.769.166.966.666.666.666.667.966.766.967.766.867.067.067.2-3270.070.070.070.070.070.070.271.271.468.667.966.465.266.165.965.565.465.863.965.765.965.865.966.365.966.266.265.966.3-2270.070.070.070.070.070.169.769.467.366.264.963.964.263.864.264.064.063.864.264.264.163.863.863.863.763.563.564.063.7-1270.070.070.070.069.970.169.666.264.963.463.663.363.663.063.063.162.663.062.662.662.662.662.662.662.662.562.562.562.50270.070.070.070.069.969.868.465.764.563.462.562.662.662.562.662.662.762.762.962.962.962.962.962.962.962.962.962.962.91270.070.070.070.069.869.469.166.264.063.863.563.263.363.063.663.763.663.663.663.663.663.663.663.663.663.663.663.663.643 第五章实证分析表5-4各种核函数分类准确率比较表核函数类型线性多项式径向基Sigmoid准确率77.4%76.1%78.1%77.8%通过表5-4分类精确率的对比，本文中选用径向基核函数作为支持向量机模22-16型中的函数，参数分别为γ=2，C=2。表5-5模型所选择的核函数和核参数核函数γC22-16径向基225.1.3模型训练在核函数和最优参数都已选定的前提下，把已有的所有数据作为训练数据进行训练，确定图4-4中节点间的权值，形成最终的支持向量机模型。模型训练的LIBSVM2.86命令：svm-train–c4194304–g0.0000152587890625german.scaleLIBSVM2.86显示的训练结果为：optimizationfinished,#iter=1703911nu=0.397815obj=-2613532233.534142,rho=-856.675468nSV=415,nBSV=386TotalnSV=415#iter为迭代次数，nu是一个操作参数，obj为SVM文件转换为的二次规划求解得到的最小值，rho为判决函数的常数项b，nSV为支持向量个数，nBSV为边界上的支持向量个数，TotalnSV为支持向量总个数。训练后的模型自动保存为文件german.scale.model，用写字板等文本浏览器打开可以看到其内容如下（其后内容为本文所加注释）：svm_typec_svc训练所采用的svm类型，此处为C-SVCkernel_typerbf训练采用的核函数类型，此处为径向基核gamma1.52588e-005与操作参数设置中的g含义相同，即γ值nr_class2分类时的类别数，此处为两分类问题total_sv415总共的支持向量个数rho-856.675决策函数中的常数项blabel12类别标签nr_sv210205各类别标签对应的支持向量个数SV以下为LIBSVM2.86列出的支持向量44 第五章实证分析5.1.4模型应用核函数的选择、参数γ和C的选择、模型的训练全部结束后，就可以用已经建立的模型进行实际应用了。把一组获得的信用数据输入模型，模型就会自动将其分类，帮助决策者进行决策。应用模型的LIBSVM2.86命令为：svm-predict[信用数据文件名]german.scale.model[信用数据文件名.predict]运行命令后，LIBSVM2.86就会自动产生[信用数据文件名.predict]文件，即预测分类信息。5.2与神经网络模型的比较研究本文采用Matlab7.1的神经网络工具箱NeuralNetworkToolbox进行德国信用数据的学习和检验。按照完全相同的5折交叉确认的原理，将1000个德国信用数据分成5组，每组200个，用四组进行学习，一组进行检验，递推5次。记录每次正确的和错误的检验个数，最后计算正确率。本文用神经网络模型的两个传递函数分别对德国信用数据进行检验的准确率如表5-6所示：表5-6神经网络模型分类准确率传递函数分类准确率RBF71.3%MLP69.0%从分类精度上看，支持向量机模型比神经网络模型具有明显的优越性。45 第六章结论与展望第六章结论与展望6.1结论(1)注册建造师信用评价指标体系本文通过对各地建筑市场信用信息的搜集及国内各级建筑信用相关法律法规的阅读，归纳出我国注册建造师信用评价指标体系。本文提出注册建造师信用评价指标体系应包括执业信用指标和个人信用指标两大部分，以保证指标体系的全面性和科学性。然后，本文将执业信用指标分为良好行为记录认定标准和不良行为记录认定标准，其中后者按住房与城乡建设部建设市场各行为主体的不良行为记录认定标准的编号规则设置，按内容分为四部分：资质、执业、工程质量和安全、其他。本文将个人信用指标分为6大类、34小类，全面涵盖注册建造师执业外的个人信用情况，作为执业信用指标的有力补充。(2)注册建造师信用评价模型本文采用支持向量机方法建立注册建造师信用评价模型，首次将此方法应用到注册建造师的信用评价。本文通过支持向量分类机方法的算法研究，通过分析线性可分、近似线性可分和线性不可分三种情况，最终得出标准支持向量分类机的算法，并依此算法建模。本文采用LIBSVM2.86作为主要建模工具，对样本数据进行网格5折交叉确认法进行核函数和核参数选择。其中在径向基核函数下，与编程语言Python-2.5.2和绘图软件Gnuplot-4.0完成接口，在完成5折交叉确认同时，用Gnuplot-4.0同步绘制分类精度曲线。经过四种核函数的5折交叉确认准确率的比较，最后选择22准确率最高的径向基函数作为该数据的支持向量机核函数，参数分别为γ=2，-16C=2，印证了前文所述的径向基函数作为核函数的优越性。最后采用Matlab7.1的神经网络工具箱建模对同一个样本、用同一种分组方法进行学习和检验。最后发现，从分类精度上看，支持向量机模型比神经网络模型具有明显的优越性。46 第六章结论与展望6.2展望本文所提出的注册建造师信用评价指标体系源于国内各级法律法规及前人的经验，并无自身的切身体会，故指标设定可能会与真实情况有一定差距，接下来的研究应该将此指标体系与真实情况相对照修改。获取注册建造师个人信用档案需要全社会个人信用评价体系的支持，而全社会个人信用评价体系的建立和完善还需要一个漫长的过程。本文在指标设定时期望不重不漏，但很难说明相近指标之间的相关性和互补性，尽管已经做了很大努力，指标体系仍显得有些冗杂。本文将注册建造师信用评价为两类，接下来的研究可以更加深入，增加信用分类，以满足实际应用中的需要。对支持向量机方法的原理有待进一步研究，以便建立更加适合注册建造师信用评价的支持向量机模型。47 参考文献参考文献[1]张亦春等，中国社会信用问题研究，北京：中国金融出版社，2003，14~39[2]曹和平，杨爱民，林卫斌，信用，北京：清华大学出版社，2004，5~7[3]中华人民共和国国家统计局，2007年国民经济和社会发展统计公报，2008-2-28[4]张维迎，产权、政府与信誉，北京：三联出版社，2001[5]王孟钧，建筑市场信用机制与制度建设研究：[博士学位论文]，长沙；中南大学，2004[6]黄惠云，王建广，卢红卫，建造师执业资格制度建立过程中存在的问题及对策，经济师，2006，（10）：259~264[7]石庆焱，靳云汇，个人信用评分的主要模型与方法综述，统计研究，2003，（8）：36~39[8]ThomasLC,EdelmanDB,CrookJN.CreditScoringandItsApplications.Philadelphia:TheSocietyforIndustrialandAppliedMathematics,2002[9]杨力，宋利，侯峰，信用评分的统计模型方法述评，统计与决策，2006，（7），141~142[10]陈建，信用评分模型技术与应用，北京：中国财政经济出版社，2005[11]姜明辉，王雅林，赵等，k近邻判别分析法在个人信用评估中的应用，数量经济技术经济研究，2004，（2）：143~147[12]Freed.N,Glover.F.Alinearprogrammingapproachtothediscriminantproblems.DecisionSciences,1981,(12):68~74[13]Joachimsthaler.E.A,Stam.A.Mathematicalprogrammingapproachesfortheclassificationproblemintwo-groupdiscriminantanalysis.MultivariateBehaviouralResearch,1990,427~450[14]Johnson.R.W.Legal,socialandeconomicissuesinimplementingscoringintheUS.InCreditScoringandCreditControl.Oxford:ClarendonPress,1992[15]Davis,R.H.,Edelman,D.B.,andGammermann,A.J.Machine-learningalgorithmsforcredit-cardapplications.IMAJournalofMathematicsAppliedinBusinessandIndustry,1992,(4):43~52[16]吴德胜，梁樑，遗传算法优化神经网络及信用评价研究，中国管理科学，2004，12（1）：68~7448 参考文献[17]J.E.Baker.AdaptiveSelectionMethodsforGeneticAlgorithms.Proc.ICGA.1985:101~111[18]姜朝霞，基于专家系统的教师评价系统的研究与开发：[硕士学位论文]，天津；天津大学，2004[19]FisherR.A.TheUseofMultipleMeasurementinTaxonomicProblem.AnnualsofEugenic.1936:179~188[20]E.I.Altman,FinancialRatios.DiscriminantAnalysisandThePredictionofCorporateBankruptcy.JournalofFinance,1968,23:189~209[21]Altman,Haldeman,andNarayanan.ZETAAnalysis:ANewModeltoIdentifyBankruptcyRiskofCorporations.JournalofBankingandFinance,1977,1:29~54[22]EisenbeisR.A.PitfallsintheApplicationofDiscriminantAnalysisinBusiness,FinanceandEconomics.JournalofFinance,1977,32:875~900[23]RosenbergE.,GleitA.QuantitativeMethodsinCreditManagement:ASurvey.OperationResearch.1994,42(4):589~613[24]OrglerY.E.ACreditScoringModelforCommercialLoans.JournalofMoney,CreditandBanking.1970:425~445[25]WigintonJ.C.Anoteonthecomparisonoflogitanddiscriminantmodelsofconsumerscreditbehavior.JournalofFinancialandQuantitativeAnalysis,1980,15:757~770[26]BarthJ.R.,BrumbaughR.D.,SauerhaftD.ThriftInstitutionFailures:EstimatingtheRegulator’sClosureRule.ResearchinFinancialServices,JAIPress,1989,(1):222~228[27]FreedN.,GloverF.Alinearprogrammingapproachtothediscriminantproblem.DecisionSciences.1981,(12):68~74[28]MakowskiP.CreditScoringbranchesout.CreditWorld,1985,75:30~50[29]HenleyW.E.,HandD.J.Ak-nearest-neighbourclassifierforassessingconsumercreditrisk.Statistician,1996,45:77~95[30]MessierW.F.,HansenJ.V.Inducingrulesforexpertsystemdevelopmentanexampleusingdefaultandbankruptcydata.ManagementScience.1988,34,(12)[31]RipleyB.D.Neuralnetworksandrelatedmethodsforclassification(withdiscussion).J.R.Statist.Soc.B,1994,56:409~456[32]郭爻，梁世栋，方兆本，消费者信用评估分析综述，系统工程，2001，19（6）：9~1549 参考文献[33]张维，李玉霜，商业银行信用风险分析综述，管理科学学报，1998，（3）：20~27[34]石庆焱，靳云汇，多种个人信用评分模型在中国应用的比较研究，统计研究，2004，（6）：43~47[35]余文建，沈益昌，杜洋，基于Logistic模型的个人信用评分体系研究，海南金融，2007，（3）：82~85[36]程建，连玉君，变量序别化在信用评分模型中的应用研究，国际金融研究，2006，（8）：60~65[37]季峰，李勇，宋加山，基于SenV-RBF的个人信用评分模型，中国科学技术大学学报，2007，37（7）：767~772[38]王孟钧，建筑市场信用机制与制度建设，北京：中国建筑工业出版社，2006[39]TonyVanGesteletc.Benchmarkingleastsquaressupportvectormachinesclassifier.MachineLearning,2004,54(1):5~32[40]FrancisE.H.Tay,L.J.Cao.Modifiedsupportvectormachinesinfinancialtimeseriesforecasting.Neurocomputing,2002,48(1):847~861[41]C.Lu,T.VanGestel,J.A.K.Suykensetc.Preoperativepredictionofmalignancyofovariantumorsusingleastsquaressupportvectormachines.ArtificialIntelligenceinMedicine,2003,28(3):281~306[42]Kyung-ShikShin,TaikSooLee,Hyun-jungKim.Anapplicationofsupportvectormachinesinbankruptcypredictionmodel.ExpertSystemswithApplications,2005,28(1):127~135[43]JaeH.Min,Young-ChanLee.Bankruptcypredictionusingsupportvectormachinewithoptimalchoiceofkernelfunctionparameters.ExpertSystemswithApplications,2005,28(4):603~614[44]沈翠华，高万林，基于支持向量机的企业信用评估模型，CAD/CAM与制造业信息化，2004，（Z1）：73~74[45]沈翠华，邓乃扬，肖瑞彦，基于支持向量机的个人信用评估，计算机工程与应用，2004，(23)：198~215[46]沈翠华，刘广利，邓乃扬，一种改进的支持向量分类方法及其应用，计算机工程，2005，31（8）：153~154[47]姚奕，叶中行，基于支持向量机的银行客户信用评估系统研究，系统方针学报，2004，16（4）：783~786[48]魏志静，刘希玉，魏之旭，基于支持向量机的个人信用评估方法初探，信息技术与信息化，2006，（6）：110~11250 参考文献[49]肖文兵，费奇，基于支持向量机的个人信用评估模型及最优参数选择研究，系统工程理论与实践，2006，（10）：73~79[50]肖文兵，费奇，万虎，基于支持向量机的信用评估模型及风险评价，华中科技大学学报，2007，35（5）：23~26[51]甄彤，范艳峰，基于支持向量机的企业信用风险评估研究，微电子学与计算机，2006，23（5）：136~139[52]侯惠芳，刘素华，基于支持向量机的商业银行信用风险评估，计算机工程与应用，2004，（31），176~192[53]张能福，蒋正权，基于支持向量机的信用评级分析，现代管理科学，2007，（8）：60~62[54]赵晓翠，王来生，基于主成分分析和支持向量机的商业银行信贷风险评估，统计与决策，2006，（7）：22~23[55]林升梁，刘志，基于RBF核函数的支持向量机参数选择，浙江工业大学学报，2007，35（2）：163~167[56]肖智，王明恺，谢林林，基于支持向量机的大学生助学贷款个人信用评价，清华大学学报，2006，46(S1)：l120~1124[57]韩顺杰，赵丁选，基于SVM的二叉树多类分类算法在工程车辆挡位决策中的应用，中国公路学报，2007，20（5）：122~126[58]傅明，王晓倩，基于SVM的网格资源信誉评价，计算机工程与设计，2006，27（19）：3534~3538[59]牛东晓，顾曦华，基于SVM修正模糊多属性决策法的用电客户信用评价，电力需求侧管理，2007，9（5）：27~32[60]李湘梅，周敬宣，罗璐琴等，基于支持向量机的城市生态足迹动态化评价，资源科学，2007，29（5）：16~21[61]李春花，凌贺飞，卢正鼎，基于支持向量机的自适应图像水印技术，计算机研究与发展，2007，44(8)：1399~1405[62]涂成立，徐祯祥，支持向量机在地铁车站深基坑围护结构变形预测的应用，铁道建筑，2007，（9）：37~39[63]钟萍，岑涌，席斌，最小二乘支持向量机在医疗数据分析中的应用，计算机与数字工程，2007，35（9）：21~23[64]岳改枝，我国个人信用评级指标的设计与评定，河南财政税务高等专科学校学报，2007，21（1）：43~47[65]陈继超，支持向量机技术及其应用，科技信息，2007，（25）：196~197[66]VapnikV.N.AnOverviewofStatisticalLearningTheory.IEEETransonNN.,1999,10(3):988~99951 参考文献[67]肖健华，吴今培，杨叔子，基于SVM的综合评价方法研究，计算机工程，2002，28（8）：28~30[68]NelloCristianini，JohnShawe-Taylor，支持向量机导论（李国正，王猛，曾华军译），北京：电子工业出版社，2004[69]VapnikV.TheNatureofStatisticalLearningTheory.NewYork:SpringerVerlag,1995[70]Chih-WeiHsu,Chih-ChungChang,andChih-JenLin.APracticalGuidetoSupportVectorClassification,http://www.csie.ntu.edu.tw/~cjlin[71]http://kdd.ics.uci.edu52 发表论文和参加科研情况说明发表论文和参加科研情况说明发表的论文：[1]王雪青，杨秋波，马云飞，“构建特色的实践教育体系，培养创新型工程管理人才”，《中国工程管理环顾与展望》，2007年4月[2]王安民，杨秋波，马云飞，“EAP：对外承包工程企业管理的新思维”，《国际经济合作》，2007年6月参与的科研项目：本人参与了津蓟高速公路后评价项目，负责“投资执行情况和评价”部分的编制。53 致谢致谢光阴如梭，我在天津大学七年的求学生涯即将结束，这七年大学生活使我有了巨大的改变，学会了很多做人做事的道理，是我生命中至关重要的七年。是我的母校天津大学，帮助我完成了人生中重大的转变。花堤皑皑、北运滔滔，巍巍学府北洋高！首先，我要感谢我的导师王雪青教授，本论文的工作是在王雪青教授的悉心指导下完成的，从论文的选题到思路的梳理直至最后论文的定稿，她都给予了很多指导和帮助，并提出了很多建设性的意见，让我准确地把握了论文的研究方向。在学术上，王雪青教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响；在生活中，王老师无微不至的关怀给予我心中无比的温暖。在硕士期间得到王老师的教诲是我的荣幸，在此我要向我的导师表示最真挚的谢意。衷心感谢杨秋波的关怀、鼓舞和帮助，七年兄弟般的友情无以言表；感谢师兄范志清、喻刚在我撰写论文期间给予的指导；感谢舍友马福杰、那彬和孟鹏在学习生活中对我的关心和照顾，我会永远记住与大家一起学习生活的这段美好时光。最后我要感谢我的父母和妹妹，是他们的理解和支持使我能够在学校专心完成我的学业，没有他们的支持就没有我的今天，十几年的求学道路上，我走的每一步，都凝聚着他们的汗水、心血和期望。我能做的唯有在今后的人生道路上继续拼搏，不辜负他们的期望。马云飞2008年5月于北洋54

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 6 7 8 9 10 / 60



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

注册建造师信用评价模型研究

注册建造师信用评价模型研究

最近更新

大家都在看

相关文章

相关标签