基于数据仓库和数据挖掘的决策支持系统

基于数据仓库和数据挖掘的决策支持系统

ID:33997074

大小:3.23 MB

页数:76页

时间:2019-03-03

上传者:U-22107
基于数据仓库和数据挖掘的决策支持系统_第1页
基于数据仓库和数据挖掘的决策支持系统_第2页
基于数据仓库和数据挖掘的决策支持系统_第3页
基于数据仓库和数据挖掘的决策支持系统_第4页
基于数据仓库和数据挖掘的决策支持系统_第5页
资源描述:

《基于数据仓库和数据挖掘的决策支持系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

L海交通大学硕is学位论文丛于数据仓作和数据挖翻的决策支持系统基于数据仓库和数据挖掘的决策支持系统摘要论卜要研究如何在数据仓库和数据挖掘的基础上构建决策支1系统。在三枪集团销售数据仓库和计划决策支持系统的应11J背景卜,结合作在顿士论文撰写阶段的研究成果,论文着重研究了数据仓库、联机分析处理和数据挖掘等技术的理论以及它们在实际系统中的应)U.A进·步讨论J如何在这些技术的丛础土,构建智能化决策支持的框架结构理论。所涉及的而比较广,其中以对数据挖掘技术的研究作为爪l;要有以一I‘儿部分组成:1.介绍决策支持系统的发展现状及其面临的挑战,并指出了在向智能化决策方向发展的过程中,所涉及到的关键技术。2.详细分析数据仓库的基础理论。结合作者对三枪集团销售数据仓库的具体设计,分别讨论了库的设计方法,向数据仓库一导入数据的方法以及数据仓库系统fJ体系结构。乡3.介绍联机分析处理(OLAP)技术。析它的基础理论,同时也结合具体实例,给出了在应用系统:OLAP的关键技4.弟四部分足论文的重点,主要讨论数据挖掘技术‘挖掘产生的背景,它的定义,技术特点和技术分类等等。重介绍了作者在数据挖掘技术的某些前沿领域中所作的探索性尝试和努力。这些工作主要包括:对关联规则提取算法的研究:多粒度时问序列中模糊规则的提取;采用人士神经网络与模糊逻辑相结合的方法对多粒度时{1y-列进行预测。手5.从系统整体的角度,分析了如何将以上儿种技术统一到决策支持系统中。莎仅在理论上提出了一个基于数据仓库和数据挖掘技术的决策支持系统框架结构模型,同时也结合在系统开发的具体悄况,给‘“了实际系统的框架和功能结构·今-关键词决策支持系统,数据仓库,联机分析处理,数据挖掘 上海交通大学硕士学位论文基于致据仓库和数据挖翻的决策支持系统DECISIONSUPPORTSYSTEMBASEDONDATAWAREHOUSEANDDATAMININGABSTRACTThisthesisaimsatconstructingdecisionsupportsystembasedondatawarehouseanddatamining.InthebackgroundofSalesdatawarehouseandplandecisionsupportsystemforThree-GunCompanyandaccordingtotheresearchduringmygraduatethesis,thisthesisanalysisthetheoryandapplicationofdatawarehouse,onlineanalysisprocessinganddataminingindetails.Furthermore,theproblemofhowtointegrateallthesetechnologiesintooneDSSisalsodiscussed.Alsothisthesiscoversawiderangeoffield,itfocusondataminingHighlightsofthethesisinclude:l.CurrentdevelopmentofDSSandthechallengesitencounteredKeytechnologiesonthewayleadstointelligenceDSSarepointedout.幽2.Analysisofthetheoryofdatawarehouseindetails.Accordingtorealapplication,thethesisalsoconcludesthemethodsfordatawarehousedesigning,datatransportationandsystemarchitecturedesigning.3.Discussthetheoryofonlineanalysisprocessing.NotonlyprovidesitstheorybutalsothekeytechnologyinconstructingOLAPapplication.4.Inthe4"'partofthisthesis,dataminingincludesitsnotation,technologyspecificationandclassificationisdiscussed.Conclusionofthecreativeworkoftheauthoron'someforemostproblemsinthisfieldinclude:fastalgorithmforminingassociationrules;discoveringfuzzyrulesinmultiplegranularitytimeseriesandtimeseriesforecastingusingintegrationofneuralnetworksandfuzzylogic.5.FromtheviewoftheDSS,analysistheproblemofhowtocombineallthesetechnologiesintoonesystem.NotonlyprovideasystemmodelforDSSbasedondatawarehouseanddatamining,butalsodiscussthesystemarchitectureandfunctionmodelinrealsystem.KEYWORDSDecisionSupportSystem,DataWarehouse,OnlineAnalysisProcessing,DataMining 一一-----一----~--一一一一一一一一~一一一一一一一一一一一一一一——一.卜海交通人学硕卜学位论文第一章前言1.1决策支持系统的发展随着社会经济的不断发展和市场竞争的日趋激烈,市场状态的变化越来越快,也越来越多样化。在信息技术吃速发展的今大,企业的管理和决策人员为了能够尽快A市场策略。适应市场的不断变化,需要有一个功能强人的决策支持系统。对管理和决策人员来说,这样一个支持系统应该能够具有以卜儿个特点:…帮助管理和决策者有效地组织和管理企业内外的各种数据和信息。能够根据需要,方便、又活少!且迅速地六找各种形式的统计数据。能及时准确地从人缺数据中发现出新颖、有效的知识,并能以此为依据。为决策者铆能化地捉供具有一定异向作用的建议性支持。社会的需求是科学技术发展的巨人动力。企业界对决策支持系统的期T,推动着决策支持系统由过去简单的基于统计和杏润的决策逐渐向钾能化决策的方向发展。数据仓库,联机分析处理和数据挖掘等技术正是在这样的背景卜产生的。数据仓库越一种从数据库发展而来的新技术。它是一种专门为决策支持服务的分析7(Q协数据库。其特点是将决策分析烈系统和传统的操作烈系统相分离,通过把人徽的)史数据集成到同一系统中,井以面向主题的方式进行组织,来为决策者提供完全是针对分析的有力支持。数据仓库的出现,从某种意义_L说就是针对决策分析而提出的。·与数蝴仓库Ili伴而生的足联机分析处理技术(OnLincAnalysisProcessingOLAP).OLAP的日标是针对特定问题的联机数据访问和分析。通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业信息)的很多种可能的观察角度,进行快速、稳定、一致和交互性的存取,Jh允许管理决策人员对数据进行各种深入的观察。联机分析处理一般只有以卜的功能:能够给出数据仓)妇数据的多维逻III视116:检索J日v.小多维数据;能够根据需要对多维数据进行各种变换操作:对数据交互式的卉询和分折:可以快速响应齐询要求。数据仓库和联机分析处理针对的都是用户对杏询和分析的需求,但人们对决策支持的要求和期望井不局限于此。人们史希望有一种智能化的辅助}:且,能够帮助决策者从l;i如烟海的数据中,白动地发现出各种有用的信息和知识,为管理决策所用。数据挖翻技术就是针刘这种需求而产生的。数据挖掘是一个从人斌数据中提取出可信的、新颖的、有效的井且能被人理解的模式的处理过程。它的根本日的就是要帮助人们智能化地处理和分析?r种数据信息。以上这些技术都代表了目前国际上组织管理数据,发现获得信息和智能化决策的最先进的手段。他们在决策支持领域中的应用,将给企业的管理和决策带来无法估4.的发展前景。日前数据仓库,联机分析和数据挖掘等技术都已经成为决策支持,数据库,人{W能等相关领域内的热点研究课题。可以毫不夸张地说,A于数据仓库和数据挖折帕Ij决策支持系统的出现将给传统的决策支持带来一场共命,它将足人们朝着智能化决策所迈出的址为坚实的一步。碑彝沂,价麟祷截噢沙嘟毛望一概斌AA},、 卜海交通人学硕1:学位论文1.2论文研究背景在作者的科研和硕十学位论文撰写阶段,参加了二枪集团“基于数据仓库和数据挖掘的计划决策支持系统”的研究、设计和7「发}一作。该系统是二枪集团针对企业内部的生产管理和市场销伶:I,作所提出的一个决策支持项目。概括的说,其目标和功能土要包括以卜儿点:.根据对市场销售情况的分析判断,对企业库存情况的统计。结合对企业内部生产能力的评估,合理、有效地制定生产计划。.及时了解企业集团分布在全国各地销售网点的销售情况,为管理者提供对销t*数据准确、灵活的统计和杳询能力。.对企业内部的各种数据进行分析,从中发现出有川的信息为企业的高层决策提供支持,通过对系统的研究和开发,使我对该决策支持系统的总体结构有了一个较为全而的认识,同时对许多具体的技术细竹也有了一个较为深入的理解。在系统的设计和〕「发过程,},,我还在某些前沿领域内,结合企业的几体实际应用,进行了一些有意义的尝试和探索性的研究。因此,在论文中,我将以二枪集团的计划次策支持系统作为研究背景,以系统设计汗发的具体过程为线索,依次介绍数据仓库、联机分析处理和数据挖掘技术的理论发展及其它们在系统中的实际应川情况。最后在此荃础上,对荃于数据仓库和数据挖圳的决策支持系统的披体框架进行研究,从全局的角度讨论这些技术在决策支持系统中的铭合方法。1.3论文内容编排本文的结构以如卜的方式进行组织。全文共有七章911成。第一章为前1’1,IW单介M决策支持系统的发展Jt.’j况和}_!前在决策支持III出现的i1L新技术。除此以外,还包括j论文的实际研究背候和文章的具体编排结构。第二章中,将介绍决策支持系统的发展现状和它回的各种闷题,以及为了解决这ilL问题,所提出的一些新的发展方向。包括数据仓库、联机分析处理和数据挖训等技术。第二章到第Ii.章‘},,分别详细叙述数据仓库、联机分折处理和数据挖绷技术的理论从础及其在实际系统中的应用状况。其中第五章是论文的巫点,在这一章中,结合对实际系统的开发,详细地介绍了作者对数据挖掘技术的研究I一作。不少内容都是作者在科Eli和和硕十论文撰写阶段的研究成果。第六章将在前儿V(1'"1M.础上从实际应JIJ的角度来介绍V.个A于数据仓库和数据挖掘技术的决策支持系统。包括对决策系统体系框架结构的研究和分析.以及针对1-:枪集141具体实际应用的各个模块功能和决策支持系统整体解决方案。第七章将总结本论文所做的!一作,少仁对进一步的发展方向进行展望。在附录中,给出了系统开发中所涉及的部分重要文挡,土要包括一些重要的库农结构以及系统程序开发文档说明。s: -一.一-一一一一一一一一一一一一一一一一一一一--一--~--一一一曰~~-卜海交通人学4y`;卜学位论文第二章决策支持系统的发展和现状决策支持系统(DecisionSupportSystem,DSS)是日前迅速发展起来的一门新兴计算机学科。’臼最早是于70年代初由关国M.S.ScottMorton教授在《管理决策系统》一文中首先提出的。决策支持系统的前身或者说基础是管理信息系统(ManagementInformationSystem,MIS).2.1管理信息系统对J几管理信息系统,,个较为许遍的定义是:竹理信息系统(MIS)足·个计对某一企业或部门的,由人员,计算机和网络紧密结合的,对管理信息进行收集,传递,存储,加!:,维护和使用的事务处理系统。如图2-1所示,是一个管理信息系统典)(q的系统结构。它的日标是将数据处理和企业管理结合起来,形成一个用于管理的信息系统。图2-呀管理信息系统结构Figure2-1ArchitectureofMIS2.2决策支持系统决策支持系统的概念是在信息管理系统的丛础上发展起来的。信息管理系统的不足之处在于它缺乏对数据进行有效分析和处理的能力,仅仅只能对数据进行简单的it写操作,而没有能够为}}J户提供分析f,d题和解决问题的功能。决策支持系统出现的卜要原囚就是要弥补管理信息系统中的这一不足之处,以适应人们对于信息管理朝着刊能化方向发展所不断提出的各种X求。吞平双欲一资拼 }一海交通人学硕I一学位论义如图2-2所示,一个经典的决策支持系统的体系结构包括三个部分:数WIC模块、模型库模块和用户接口([1.21).‘言较管理信息系统的差别在于,它增加了WM/,=:Fu摸}L'l.l}r'}i'"t理系统。决策支持系统把众多的fk)[.有效地组织和存储起来,Jf'.H.建立了Ek})i?l1r:IiI数据库的有机结合,最终为管理和决策者提供及时、准确、科学的决策信息。图2-2决策支持系统结构Figure2-2ArchitectureofDSS2.3面临的挑战从信息管理系统到决策支持系统是科技和管理发)till的个吃跃,但是前进的步伐月没有囚此而停顿或者放慢。随着社会和经济的不断发展,人们很快又对决策支持系统提出了许多新的要求,对决策支持的内涵也赋予了许多新的内容。在这种情况卜,传统的1,4:」-数据库和模烈库的决策支持系统已经逐渐感到力不从心。造成这种局面的原因足多方而的,但集中体现在以卜儿点:首先,管理决策者对数据的组织和管理方式提出了史高的要求,他们希望能够仆常方便灵rfifl勺访问到数据库中的子isf}叮言息,而不必lys七在决策系统中约定某个固定的杏询或分析模式。117在传统的关系itp数据111:系统LIJ,联机,if:务处理(OnLineTransactionProcessing.OLTP),即企业1.1常的操作IIQ数据处理,同数州的杏询和分析功能足拥绑在同个),yJII统中的,囚此,对于以上这个石似简单的要求,一u当数彬库的结构较为庞人和复杂I],].传统的关系J5'j数据库管理系统便无能为力了。不仅如此,随着数据库技术的不断发展和数据库管理的)’泛.M.及,数据1;‘卜积f:的数据星也日趋庞人。在许多现有的数据库实际应用系统中,数据斌往往达到千兆级,甚至兆兆级。面对如此人最的数据,即便是面向日常事务处理的数据库操作都已经很勉强J,史不用说足要进行Iii杂的分析操作。山于数据分析功能没有同数据处理功能相分离,囚此Iri统的数据库技术在IN对海斌的数据信息时,数据分析已经变的高不可攀了。第二,决策支持系统不应该仪仅停留在利用固有摸吧对数据库中的数据进行简单的数7 I.ily交通人学硕卜学位论文学计算上,而应该要能够几有一定的逻辑推理能力。只有这样,才能进一步减少人的参”,程度。提高决策支持系统的智能化。最后,传统的决策支持系统缺乏自学习和自适应的能力。’心们无法依据系统数据库(I,人星数据进行白动的学习和推理,也无法从数据「}.提取出有川的信息和知识来为11P理决策者使用。决策支持所需要的经验和知识只能由几有丰富经验的领域专家来提供。这就大人局限了在决策支持中,摸7(4111:所应该起到的)}o模)t4库的应用范围也仅仅只能IPi144在知识的管理和简单的分析处理功能。2.4数据仓库,联机分析处理和数据挖掘“公欲善其乎,必先利其器”,面对以上这些新出现的问题和挑战,必须要有新的手段和新的方法与之适应.数据仓库,联机分析处理和数据挖掘技术就是在这样的背景卜产生。数据仓库是从数据库发展起米的一种新的数据组织方式。作为一种数据管理的手段,它将事务取处理和分析吧处理很好地分离开来,以面想土题的方式组织数据,为决策支持者提供所需要的信息。在数据仓库的基础上,联机分析处理技术(OLAP)提供了针对特定问题的联机数据访问和分析。它通过专门的数据综合引擎,附之以更加直观的数据访问界面,统一j分散的公共应用逻辑,可以在短时间内响应非数据处理专业人员提出的各种复杂杏询要求。除此之外,与数据仓库儿乎是相伴同时产生的是数据挖荆技术。数据挖掘是从机器学习和数据I个发展出来的一门全新的学科。它足一种从人址数据中提取出可信的、新颖的、有效的井且能被人理解的模式的处理过程。数据挖翻的根本日标就是要从人址的数州信息中白动地,铆能化地发现出有川的信息和知识,J卜最终为管理和决策支持所川。应该说数据仓库,联机分析处理和数据挖掘代农了一种新的发展方向,它们的出现为决策支持系统的发展带来了全新的空间,也为设计井实现新一代的智能化决策支持系统提供了可能。在为二枪集团设计“计划决策支持系统”的过程中,就使用了基于数据仓库,联机分析处理和数据挖掘的技术。从系统的使用情况来看.取得了较好的实际效果。在hUu的儿illkIII,将依次详细介绍数据仓库,联机分析处理和数jklf20d技术!,I,viili论以及它们在决策支持中的实际应用。2.5本章小结在这一章中。简单介绍了决策支持系统的发展现状及其面临的这种挑战。同时也指出了决策支持的发展力向和关键技术。这些技术对构建柳能化的决策支持系统起石"I,.为重要的作川。在以后的儿章中,将会近步进行一I仁常详细的研究。一#,州庵彝舞你蟠,:kr 1-.海交通大学硕卜学位论文第三章数据仓库技术的理论和应用3.1数据仓库的需求传统的决策支持系统。绝人多数都足以数据库和信,0.节理系统作为其核心和11础。11单一数据资源,即数据库的荃础上,集成了从小务操作处理、批处理到分析统计、决策支持等各种类烈的数据处理}作。然而,止如在第一章中所指出的那样,随着数据lrr技术的不断.R及和数据库竹理信息系统的)’泛应用,在许多企业的数据库内部积累的数据徽越来越人。不仅如此,各个部门间的数据也时常囚为不同的应川环境而造成数据表达的不一致性。在这种情况卜,如何允分利用这些数据,为企业的分析7,1;策提供更多的支持已经成为摆在企业管理和决策者而前的一个共同关注的难题。人们逐渐感到,以事务操作处理为土要日标的数据库技术1u1以分析、统计和决策为1要日标的决策支持系统之间存在着很大的差别。概括起来主要表现在以卜二个方面:.数据的来源不同。.数据的组织和管理方式不同。.对数据的操作类取不同。由于这些差别的客观存在,人们开始意识到直接使用事务处理环境来进行DSS是行不通的,必须将小务卫处理和分析型处理分离开来。几体IN言,,』‘务处理环境不适IhfDSS的原因,概括起来上要有以卜五条:事务处理和分析处理的性能特性不同在事务处理环境中.数据处理的特点是对数据的读写操作频率高,而且姆次操作处理的时间短,因此数据库系统可以允许多个)I1户按分时方式使川系统资源,同时保持较短的响应时间,OLTP(OnlineTransactionProcessing)是这种环境h(1!的数据进行了简单的粮理和集成,J!没有对数据进行各个层次的综合。轮转综合文件这种存放形式是在简单堆积文件的丛础上实现数据的轻度综合和Ph度综合。数据存贮单元根据时间属性被分为日、周、月、季、年等儿个级别。在一个星期的七大中,数据被逐一记录到每日数据集中;然后七大的数据被综合,记录在周数据集中、接卜去是新的个星期,数据仍然被记录到梅日数据集中。同理,当周数据集达到五个以后,数据再被综合到月数据集合III。依次类排,先将细Vil数据综合为周,然后Ih综合为月,I11综合为i},最后综合为年,14次综合都是定期进行的。这种组织形式不仅可以获取必要的细ii性的分析数据,而且对于一些综合度较高的分析也可以不必损夫时间,提高了效率。其缺点是存储空间的兀余。3.2.2.4数据仓库中的数据追加在3.2.1中,己经指出,数据仓库中的数据是动态的,不断会有新的数据进入数据仓库,这就涉及到如何追加数据的I,}1题。般来说,数据是来自于企业内部的OLTP数据炸毛也 一--~-一一-一-一一-一-一一一一一一一一一一一一一一一一一一一一一r.海交通大学硕卜货位论文可以来白企业外部),但数据逛加井非简单地将数据库中的数据转移到数据仓库中,囚为在数据追加的过程中,涉及到许多完招性、一致性的问题。囚此,必须要有一套合理有效的机制来控制整个过程o向数据仓库中追加数据的常川方法有:时间戮如果数据有时间戳,对新史新或插入的数据记录,可以记录更新的时间栽,从而刘断哪些数据是_L次追加了后发生变化的。这种方法要求在进行事务处理时必须有一个处理时间的时标,但这在多数场合延不易现实的‘DELTA文件在OLTP中进行数据更新或输入时,记录应月J程序所改变的内容。利用DELTA文件效率比较高,不用扫描整个数据M',只须记录数据的增娥。但是这种做的缺点是会导致应川空间的增加。日志文件采川日志文件是一个很好的办法,因为日志是数据库系统本身所具有的机制,itiif1.不会影响OLTP的性能。同时还具有DELTA文件的优越性。提取数据只限于日志文件而不川扫描孩个的数据库。但是日志文件也有不足之处,!AI为日志文件将数据库中的所有的变化都记录在其中,但趁对数据仓库提取数据而言,只需要最终已经确定的变化修改的数据,其它在过程,卜的日志数据不仅仅是不必的,而且对输入数据仓库产生会产生不良副作用。这种方法对不提供日志处理的较旱的数据库系统而言是不可能的。数据字典这是我们在进行泛枪集团销售数据仓库的实际设计过程中所采用的方法。该集L41许多数据库应用都是采用FoxPro型的数据库系统。这种系统井不存在比较好的日占处理机制所以我们在系统设计和实现过程中采用了元数据的方式。将实现中需要控制的数据全部以记录号的形式给确定卜来,在进行数据的集成时,母进行一次数据的集成就记录一次该记录目前的位置,然后卜一次再集成时,就从该位置的卜一条记录开始.这样比较好地对新增加的记录进行了控制。3.3数据仓库的设计数据仓库址建立决策支持系统的1础。数据仓库的设1卜必须同企业的管理系统和决策支持相紧密联系。作为数据仓库的设计者不仅要考虑数据库和用户界面,还要考虑数据加载策略,数据访问}具,用户的培训和不断出现的维护问题。因此,数据仓库需要一个综合考虑了许多方血的设计方案。([611本章将以作者为三枪集团设计的销售数据仓库为实际应用背景,详细介绍整个设计过程,包括数据仓库需求分析,概念模A'!设计,逻辑模型设计和物理模A4设计。同时还相应地总结在设计过程中所涉及到的各种问题。叭甘 !几W9交通人学硕卜学位论义3.3.1数据仓库需求分析数据仓库的设计从“它将用于什么以及谁将会用它”这个最基本的问题开始。建命企业级的数据仓库,日的是将用户直接与他们所需要的数据相连,以便于进行灵活,有效的,详细的,战略性的商业决策。因此在设计数据仓库之前必须明确其应用目标。以二枪集团销售数据仓库为例。如图3-3为例,建立数据仓库的目的是能够将分布在全国各地的各种销售数据进行汇总,较理。然后以星型模型和雪花模型将多个数据表连接起来,J卜以多维数据立方体的形式进亨rfit织竹理。在此All出L,提供为企业决策服务的各种分析,杏询,报表功能。不仅如此,还要在数据仓库的基础上,开发各种数据挖掘技术,井将其渗透到企业管理决策的各个领域。决策支持k」查询分析多维分析1_具ff数据挖掘「几数据仓库图3-3数据仓库应用框架Figure3-3DataWarehouseApplicationArchitecture3.3.2概念模型设计这里指的概念模)S?.与数据库设计中所指的概念模型基木相同。它是土观与客观之fil的桥梁,是为系统设计和收集信息而服务的一个概念性I几。在计算机领域中,概念模刑足客观世界到计算机世界的一个中NJ层次。人们将现实世界抽象为信息世界,Il将信息Ill:?r抽象为机器世界,这个信息世界就是我们所说的概念模型概念模烈设计的主要任务足:.界定系统边界晚般男砖、耗女一卜泳加 卜沟交通人学硕卜1介位论文有的分散的数据库系统中抽去来的。这些数据可以来白不同的渠道,其结构是多样化的。将这些数据进行统一与综合。就成为在数据导入过程中所要完成的任务。数据导入的1:作土要包括以卜四个步骤:数据检验(Verification)“检验”_1:要足川来确保`r入数据仓库的数据4规定范围内足否足合法和准确的。山于这些数据以后会成为决策支持的重要依据,因此数据检验的这一步的重要性是不,’iINOGI的。在实际的系统建设中,最简单有效的数据检验二L要包括:1.确保在必要的地方使用了NOTNULL属性2.确保土码的唯一性。比如,以F的SQL语句就确保了。ustomerid字段的取值不能为空:Createtable[customer]([customerid][integer]notnull,[custome几name][varchar](40));又L匕如:createuniqueindexindexidon[customer](customerid)onprimary;该SQL语句保证了主11=M性customerid的唯一性。数据抽取(Extraction)“抽取”这一操作只在某些时[n1点_L进行。这些时间点是经过准确定义的,J下ij工L'i,资Al里进行的fill取操作的时1111+11协0.14.“抽取”就足读取井过滤数据.这些数据将进入数11r;仓库或暂时存放在中介数据文件里,但最终还是会被异入数据仓库。数据净化(Scrubbing)“净化”是指对从不同渠道收集来的数据进行加I,使它们可以被数据仓库接纳。7i'见的“净化”操作包括对数据进行的通川化格式化和用户化等h"re数据转换(Transformation)“转化”操作包括把一个数据iuA分割成多个相关的条F],以及把多个条Wit合成个新的记录:对数据记录进行杳找和转化,使数据适合丁显示或比较:以及根据已有数圳计算新数据。转化{:作的附加职能还包括把前IN处理过的数据载如到数据仓库中。数据导入的过程中,许多[n况卜需要自行编写代码来控制数据导入过程。我采川1MSSQL语句和VisualBasicScript相结合的办法,完成了推个系统的数据导入1:作。采N1VBScript代码的实01如F:FunctionTransform()DTS_Destination("ID")=DTS_Source("ID")DTSDestination("name")=DTSSource("name")Transform=IEndFunction协携一稼奋握庚)簇盘 ———一一一一一甲产一一-一一-~,----------~---.-.-1海交通人学硕I一学位论文3.5数据仓库体系结构最后,给出构建榷个饭枪集团销1J数据仓库的体系结构。如图3-7。该系统将分布在全国各地销售网点的销1;'数据,通过电话网传输井汇总到一个统一的数据仓库中。数据从不同的应)II系统和不同的操作环境,通过数据采集,数据清理和数据迁移最终进入数据仓库,)1为上层的决策支持应川系统所使Jl1e数据采集山于应111单位二枪as引已经建命了个国计算机销竹网络,所以数据采集也伸展到梅个细竹。通过计算机网络,从各分公司、各专卖店以及两人销妈竹点收集数据,进41J,汇总,这是由专门的采集1.具在各个部门独白完成的。数据的刷新越人进行。数据清理纵然各分公司、一t卖店使用的销114管理系统是类似的,但山于各部门的某ill:编码71小一致,所以需要对采集来的数据进行清理,把编码统一化,数据的统计日径一致化,把数据合井起来,这就要进行数据追加,在这里面采用了数据字典进行管理,也就是前血介绍的方法。这部分1作是将采集的数据汇总到集团后由I.几完成的。数据迁移由于原先的销伏管理系统建立在Novel[+FoxPro的平台上,为了把数据存储到数据仓库中,就需要进行异构数据的迁移。我们利用ODBC接u,采用了VBScript与SQL语。、1相结合的方法,白行开发这样的一个一儿,实现了异构数据的转换,将Novel[+FoxPro的数据迁移到WJNNT+SQLSERVER的环境'11.3.6本章小结在这一章中,首先详细介绍了数据仓库的理论,包括数据仓库的概念、特点和数据绍织方式。之后,结合作者在1仓集团数据仓库实际设计中所遇到的问题,分别讨论f数据仓库的设计方法和向数据仓库导入数据的方法。tug后,义分析了实际数据仓库系统I'19体系结构。应该说数据仓库技术的发展才刚刚起步,还有许多问''r有待解决。在作者的科研和论文阶段中,通过对1kG集Ni数据创车的设计和开发,在这方而得到了一定的收获,囚此这一章也同样可以石作足对这一部分{作的小结。 (:海交通大学硕卜学位论文第四章联机分析处理在第二章中,我们论述了数据仓库的基础理论以及三枪集团销售数据仓库的具体设计和系统毅体框架结构。当然,数据仓库只是进行分析和决策的基础,在数据仓库之上还必须要有强有力(YJI一几来进行分析和决策。联机分析处AT(OnLineAnalysisProcessing,OLAI')和数据挖掘就是这样的{具。木章将讨论与数据仓库密切相关的OLAP技术,以及LI:设计开发三枪集团计划决策支持系统中所实际采用的联机分析技术。第六章中将重点详细i寸沦数据挖掘技术。联机分析处理技术的出现尽管只有短短儿年,但足由于受到1泛的重视,其发展的速度可谓一日千里。以日前的情况来石,OLAP技术己经逐步趋向F.成熟,己经有许多比较完善的OLAP分析产品可供选择。而且用户也可以依据应用单位白身对数据分析的一I:特定要求来进行二次开发。在诸多产品中几有代表性的是Microsoft公司的OLAPServices[b],在二枪集团计划决策支持系统的实际开发过程中,我们也使川了OLAPServices技术。本章将先给出OLAP技术中所涉及到的各种概念,然后在此垫础上,介绍使川MicrosoftOLAPServices为二枪集团开发的销快数据联机分祈系统的方法。4.1OLAP中的基本概念4.1.1什么是OLAPOLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(这些信息已经从原始的数据进行了转换,以反映4),所能理解的企业的真实的“维,’)的很多种可能的不同观察形式,进行快速、稳定、一致和交互性的存取,井允许管理决策人员对数据进行深入的观察[4]>联机分析处理一般应该具有以卜的功能:.给出数据仓库中数据的多维的逻辑视图。视图独立于数据存贮的具体形式。.交互式杏询和对数据的分析。交1式六询通常应该包括上寻(Rollup)和hq-(Drilldown)分析方式。.检索并显示多维表格中的数据,井且应能够方便灵活地变换基轴,以便商业”打,从不同角度来分析数据,不仅如此,在分析一个侧轴的数据时还应该可以通过另一个侧血来检验。.可以比较快速地响应杏询,不让分析过程中断.4.1.2多维数据结构在联机分析处理系统中.数据是以多维的结构进行组织的。这种多维结构也称作数物立方体结构。如图4-I所示,一个数据立方体最基本的单位是一个数据单元,这种数据't'元也被称为度址(Measure)[G],';代表了数据的实际愈义,足以后川来杏询分析的时似,所用到的实际数值. I海交通人学硕卜学位论文在数据立方体中,度1":a1>'1过多个数据维(Dimension,简称“维”)[4]来定位。排个维都表示某一类的数据,它是人们观察数据单元的特定角度(度斌也可以被视为是特殊的维)。在数据立方体中数据维相当于一个坐标轴,数据维里的数据都被限定在各自维的定义域内,坐标轴上的坐标对应维成员变斌的相应取值。维2坐标轴维3度最尸产图4-1数据立方体图4-2等级结构Figure4-1DataCube恤gure4-2Hierarchy对一个数据维来说,u]以存在一个或多个等级结构(Hierarchy)[61。如图4-2所,t:睡个等级结构是一棵树。位]-.等级结构项部的是树根(Root),位于等级结构底部的足个或多个“叶子”(Leaf).等级结构可以被分为多个级(Lever),任何一级都可以被石作是数据维里的一类数据。在每个级中,一般由多个成员(Member)组成。由所有的成员组成的集合包含了该级别中所表示的数frl的全体。等级结构的顶部(根级)存放了粗略划分的数据集合,IN在底部(u1-}})则包含J稍细划分的数据集合。举例来说,如图4-3所示,就是关于地区维的两种不同的等级结构。另外,在数据仓库中,由数据维表里直接获取的成员称为输入成员,从包含其他成员的表达式里得到的成员被称为分出成员。地Ix:维东部I}中部}!西部东南}}东北西北}I西南图4-3地区维的不同等级结构Figure4-3DifferentFierarchiesinDimensionoflocation砂少一毅、 一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一_卜沟交通大学倾十学位论文4.1.3数据立方体结构的操作切片在多维数据的各个维上,分别选定某个对应维成员的操作成为切片操作,即在多维数组(维I,维2,,维n,度诚)中确定每个维的维成员.所得到的多维数组的子集(维成员I.维成贝2,‘二维成员,、,度11,'.)称为足对多维数组的个切片,T,某个维取个体时。即取root时,该维所对应维成员变址称为ALL。切片操作的例子参见图4-40坐标旋转在多维数据中,改变某个切ti,卜的维的于件列次序,称为坐标旋转。iii图4-49ri3;,改变时间维和地+X维的次序,就使该切片进行了相应的坐标旋转。地14却产品约地时切片操作伙间一粉维维时间维时间维地区维图4-4对数据立方体的切片操作与旋转变换Figure4-4SliceandRotationOperationsOnDataCube上寻(Rollup)与下寻(Driildown)操作上秘和h'寻操作是OLAP技术中特有的一列操作。对于一个数据切片,将某个维中的成员变缺从等级结构中的低一级变为其上一级父亲i}点的操作称为上寻操作,反之从父亲接点变为其卜一级中所有的子节点的操作称为卜寻操作。具体实例见图4-5度量时(p1度量{时间产品类型19931999上寻产品类型199$1999A}}45{43<一~->几{}二{Total季’交{四B345457卜廿AI213101}104543C56456B80908095}345457C13】5141456456图4-5上寻和卜寻操作Figure4-5RoliupandDdlldownOperation份鑫:碑 海交通人学硕卜学位论文4.1.4数据立方体结构的存储方式在OLAP技术中,数据立方体的存储一般有二种方式:.MOLAP(多维OLAP):采取了对杏询性能和存储空间进行优化的多维结构方式来存储立方体结构中的数据和集合。在MOLAP模式卜,NULL值不被存储,少卜目.由J、执行t存储空间的优化,数据在存储的时候都进行了仄缩。ROLAP(关系OLAP):使用关系数据库中的表格来存储数据和集合。这种模式在立方体数据结构的存储处理中,使用了标准的关系取技术。HOLAP({It合OLAP):在进行数据结构存储Irk采用了MOLAPkilROLAPfl'}Jyll合方式。4.2OLAP应用系统的设计在为二枪集团设计开发“计划决策支持系统”的实际过程中,我们使用了Microsoft公司的OLAPServices技术。该技术采用了典职的二层构架,如图4-6所示,系统层次依次分别为:OLAPServer,PivotTableIIIClient.卜面首先介$(1OLAPServer端,着重介Vi对数据立方体的设计,然后分析中间层PivotTable,最后介绍在前台应用程序开发过程,卜所涉及的一些关键技术。包括决策支持对象〔DecisionSupportObject,DSO),3}维)iF04P.`-i(MDX)和数据立方体的操作方法。4.2.1数据立方体的设计通过对二枪集团数据仓库和决策支持应用的分析,我们总共为二枪集团设计了三个数据立方体:销传数据,客户数据和库存数据.考虑到在其它章J}中已有叙述,这里仅简I'll地给出销售数据立方体的结构。其它两个数据立方体的结构也基本相似.在销售数据立方体中,采川了星l0模型。度娥分别为:销供数斌,销1'Iftr1'价和ifl1IifII额。(度从是一种特殊的维)其中销售数娥和销售金额是输入成员,销售单价是分出成员,表示商AnHh平均价格,VIII;单价=销竹金额/销I;数1k.;!.方体的维包括:销4地区,梢I时间,商Ah型一号,Ifs品等级,销佑顾客信息。4.2.2透视表服务(PivotTableService)透视表1161务(PivolTableService))i--z构架中的,IhIlijW.它在OLAP1414liI,扮iiiiXX重角色。首先,透视表服务足一个OLEDB的提供者、’占支持在OLEDB2.0中的OLEDBI'oiOLAP扩展说明.这使得客户机应IN程序能够与1个OLAP服务器通信。在这种拈况1-1透视表服务充当了OLAP服务器的一个客户。透视表服务所扮演的第括个角色是作为一个独立的在线处理OLAP服务器。在这种角色中,透视表服务能够提供在线和本地数据分析,井能提供对OLAP数据的访问。1111'ld以定义井将客户机器中的本地数据立方体结构填充在一个单一的立方体结构分区中。 1福份交通人学硕卜学位论文OLApser,ice,System几r仁hiteture(,erver)。咒黯孺沈半即一巨互为St自了丫、Addln李OLAPM舀几ager毒,古式。阳八p口‘可武.on0衍。改Mode{Me饱data(Deci‘ionsuPportobJ.改5)1划4一60LAPServer系统框架19]吐gule4一6oLApServicesSysteInArcllitecturet9l对于所有的OLEOB提供者,都可以直接使用提供者给出的界面和方法来编写程序。透视表服务也不例外。但是一般情况卜.通过而向模型刘象的编程更为容易。血向对象的模烈可以将OLEOB对象的复杂功能包装到一个更为简单的,少t代表了很多应川程序所要求功能的一个模药牡卜。Mic伯soft提供的这样一个典型的面向对象模型称为A以iveXDato句郎ts(ADO)。Ao0足一个标准数据模’(绝。’已捉供fj勺又寸象包括:Connection(连按)。Comlnand(命令),Rc:ordsc礼(记录集),Field(域),Para,nete怡(参数)以及Error(车昔误)。AOO模刑的的结构如图4一7:'、教仁晒协卜 .一一一一一一一一一一一一一一一一一一海交通人学硕卜学位论文ConnectionCommandParametersParameter.RecordsetFieldsFieldErrorsError图4-7ADO的结构Figure4-7ArchitectureofADOConnectionCatalogCubeDefs.DimensionsHierarchiesHierarcbyLevelsLevelMC功bersCellsetMemberCellPositionsPositionMembersAsesAxisMembeiPositionsPositionJMembersMember图4-8ADOMD的结构Figure4-8ArchitectureofADOMD29'“彩华叭以几二试可 卜海交通大学硕卜学位论文为了将一个对象模刚映射为一个多维模烈。并使用此模型所描述的数据,Microsoft发布TActiveXDataObjectsMultidimensional(ADOMD)对象WoeADOMD包含的对象有:Catalog(目录),CubeDef(立方体定义),Dimension(维),Hierarchy(等级结构),Lever(级),CelISet(数据元集),Axis(坐标轴),Position(坐标位置),Member()戍员)。此模烈的结构在图4-8中描述.鉴于ADO模烈一般适合于使用表格型的数据格式,ADOMD模型也被设计成通过记录集对象CellSets来检索多维数据的风格。当然,在实际设计中可以使用两种模型中的了「何一种来开发应用程序.4.2.3客户端的决策支持对象(DecisionSupportObject,DSO)为了在客户端对OLAP服务器进行访问和控制,我使用了决策支持对象(DecisionSupportObject,DSO)。从COM模?R1(ri角度来考虑,DecisionSupportObject模1I.,与DAO,OLEDB,ADO或者其他任何COM编程模型没有什么不同。虽然它包含一套不}.」j几JL他模型的对象集和集合,但它包含的集合,对象,属性以及方法依然是在通用的COM模)(v框架内.ICI4-9W.示1DSO的.琦级别视ICI.101端',,点足OLAP服务器。4alK务器对象之曰亡个OLAP数据库,它由实际存在的立方体结构组成。立方体结构包含一个或多个部分的数据集合。在DSO模烈中,名为MDStores的对象都包含有一个容器集合,即MDStores集合。在这些容器集合中保存有层次表中的每一个对象的索引,并允许在该集合中添加(AddNew)和删除(Remove)对象成员,也可以通过它们来定位(find)任何指定的成员。服务器对象中的MDStores集合是数据库对象CIsDatabasea数据库对象也包含个MDStores集合,这些MDStores集合中包含数据立方体结构对象CIsDataCubeo立方体结构对象的MDStores集合包含clsPartition类型的对象,部分MDStores集合中包含CIsAggregation对象。MDStores集合本m有一个名为ContainedCIassType的属性,用r.表明在该集合,}。包含的对象的类型。如果该属性是CIsDatabase,那么MDStores集合中所有的对象成员就址CIsDatabaseoDSO支持OLAP对象的持久性描述。因此,它需要为服务器,数据库,和立方体结构等各个持久性对象存储全部的属性和集合,以便在以后可以使用创门。图4-9决策支持对象.岛级别视图Figure4-9HighLeverProfileofDecisionSupportObject29- 卜海交通人学硕卜学位论文第五章数据挖掘技术及其应用作为本文的重点。在这一章中,将详细介绍决策支持发展‘},的核心问题:数据挖掘技术。在前儿章中已经指出,近儿年来,随着数据库技术的不断发展及数据库管理系统的)泛应用,数据库中存储的数据星急剧增人,可是日前川于对这些数据进行分析处理的1_具却很少。在海橄的数据背后隐藏着许多重要信息,这些重要信息可以很好地支持人们的决策,但由于人们目前所使用!.具的局限性而无法将其挖掘出来。日前数据库系统所能做到的只是对数据库中已有的数据进行存取,人们通过这些数据所获能得到信息ia.仅仅是V.个数据库所包含的信息最的一部分,隐藏在这些数据之后的史重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有十分重耍的参考价值。面对海最的数据信息,如何从中白动地,智能化地发现出有用的信息和知识,少l.为人们所用,已经成为摆在人们面前的一人难题。数据挖粼技术就是在这样的背景卜应运而产卜的。5.1数据挖掘的定义数据挖All(DataMining)又称做数据库中的知识发现(KnowledgeDiscoveryinDataBase)。到日前为比,人们给数据挖掘卜过许多定义。随着数据挖掘研究的不断深入,人们对数据挖圳的理解会越来越全血,对数据挖掘的定义也将不断修改。卜面是对数据挖掘的一个比较公认的定义:数据挖掘是一个从人址数据中提取出可信的、新颖的、有效的11以能被人理解的模式的处理过程。卜面我们对这个定义作一个详细的解释:数据:数据是指一个有关事实F的集合(如学生档案数据库中有关学生基本情况的各条记录),它是用来描述事物有关方面的信息,一般来说这些数据都是准确无误的。模式:对于集合F中的数据,我们可以用语言L来描述其中数据的特性。对f-表达式E二L,E所描述的数据是集合F的一个子集F,。只有当表达式E比列*19Ht月中元素的描述方法史为简单时,我们才可称之为模式。如:“如果成绩在81-90之lul,则成绩优良”可称为一个模式,而“如果成绩为81,82,83,84,85,86,87,88,89或90.则成绩优良”就不能称之为一个模式。.处理过程:数据挖拥是一个多步骤的处理过程。包括数据预处理、摸式提取、知识评估及过程优化等等。.可信(Confident):通过数据挖掘从当前数据中所发现的模式必须是Il:确的,否则数据挖Eli就毫无作h].我们}I)c来表示模式E的uJ信度。‘二C(E,F),其‘},E二L,E所描述的数据是集合F,,cF。.新颖(New):数据挖掘所提取出的模式必须是新颖的。模式足否新t如1.以通过两个途径 (几沟交通人学(ijii卜7位论文来衡徽:其一是通过对比当前得到的数据同以前的数据或期望得到的数据来判断该模式的新颖程度:其_是通过对比发现的模式与己有的模式的关系来判断。通常我们.I)以用一个函数来表示模式E的新颖程度N伍,F)。有效(Valid):提取出的模式应该延有效的,或者说是有潜在作月」的,即应该是为川户所关心的且有相当使用价值的知识。我们FJ样可以通过某个1A数的值米衡娥,川r表示模式E的有效程度、?一V(E,F),能被人理解(Understandable):数据挖掘的一个k)标就是将数据库中隐含的模式以k1I对客易被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。”然一个模式是否容易被人理解,这本身就很难衡星,比较常用的方法是对其简单程度进行衡V.摸式E的可理解度。可用IA数。=U(E,F)来衡IF1.我把以上四个特点的英文单词的首个英文字母,通过还按生成CNVU(Confident,New,Valid,Understandable:即可信、新颖、有效、可被理解),来代表数据挖掘的这四个特性。5.2数据挖掘中必须考虑的问题要理解数据挖掘,a先必须要卉明自数据挖掘需要解决哪些问)",以及数据挖掘在实际使用中将面临哪些困难和挑战。5.2.1处理不同类型的数据在不同的)侧I」系统:l:,有许多不同类刑的数据库存在。由T-Ov.川最]”泛的足关系’;,数据库,囚此一个数粥挖翻系统必须至少能够高效地在关系型数据库中进行挖韧。此外,fr:数据库中,存在许多不同类型的数据。除r常用的丛本数据类)lp以外,还会出现一些复杂类型的数据,诸如:超文本数据,多媒体数据等等。一个功能强人的数据挖掘系统应该能够处理不同类刑的数据库和数据类取.当然由一个统一的数据挖掘系统来完成以上所有任务,的确显得有点勉为其难,囚此日前较为实际的作法是针对各种实际应用及其使用的数据)tit(诸如:关系Mi.数据库、多4体数据库、空间数据库等等),来“度身定制”适合其特点的数据挖掘系统。5.2.2数据挖掘算法的高效性数据挖掘面对的是海从的数据,其数徽往往可以达到千兆级,甚至兆兆级。1A此A设计数据挖掘算法时必须强调效率(eficient)和可扩充性(scalable)。也就是说,所了IN勺数据挖掘算法,必须适用于人型数据库。一些时间复杂度偏高的算法在实际使用中,将{,泛乎〔;毫无意义。必矛尹庵久 IAll交通人学倾!一学位论交5.2.3数据挖掘结果的CNVU止如在数据挖绷的定义中所指出的那样,数据挖掘的结果应该具有CNVU(可信、新颖、有效、可被理解)的特点。首先,数据挖掘必须能够排除各种干扰数据的影响,准确地反映数据库中所包含的知识。同时,数据挖Art应该能提供新颖的,为少}」户所关心的,)(且有相当使用价值的知识。Ill者,不I'd的用户对从数据]妇(j挖圳出的同一知识会有不同的视角,因此需要有一种统一的高层次的表达方式(诸如:语言描述,规则,或者图形化界面)来表达发现的知识。5.2.4数据安全当我们从不同的角度和不同的抽象层去访问数据的时候,就有可能对数据库中数据的女全构成潜在的威胁。多数情况卜,这种安全隐患主要是指数据的篡改和泄4ue囚此(I数据挖翻的同时,必须解决数据的安全、保密、隐私和知识产权等一系列问题。当然,这’}!有些已经超出了数据挖掘技术本身所能涉及的范围。5.3数据挖掘技术的分类到日前为比,对数据挖掘的研究和开发取得了不少进展。特别是最近儿年,出现了许多数据挖训的新方法和新技术。对于这些方法和技术,可以按以卜二种不同的分类方法米进行划分。5.3.1按数据类型来分类数据挖掘系统可以根据其处理数据所处的不同数据库类型来进行分类。日前数据挖0,11,所能处理的土要数据库类取有:关系型数据库、面向对象的数据库、空间数据库、多媒体数据14j,和INTERNET信息数据A+(InternetInformation-base)等等。5.3.2按知识类型来分类目前数据挖Ali能够发现的知识类'I.j土要有:关联规则(associationrules),序yil规则(serialsrules),分类规则(classificationrules),聚类规则(clusteringrules)等等。此外,也可以根据知识的不同抽象层次划分为:)’义知识,元知识和多层次知识。5.3.3按使用的挖掘技术来分类根据数据挖掘技术的不同驱动方式,可以把数据挖掘技术划分为:白动发现知识的挖掘技术,数据驱动烈的挖掘技术,杏询驱动I(0的挖掘技术,和交4.式挖掘技术等等。根州孙.一卜黔黔洲魂-、 }屯海交通人学硕卜学位LL文挖掘技术的不同内含,又叮以分为:丛于一般化的挖All技术,丛r模式的挖掘技术,J,L!数理统计的挖掘技术,和混合刚挖掘技术。在卜文中,将以按知识类型的分类方法为线索,依次讨论关联规则,序列规则,分类规则和聚类规则。在介绍这些方法的过程中,将以“三枪柒团计划决策支持系统”为实际具体背景,井结合我在硕十研究生阶段中对数据挖掘技术的研究和探索成果。其中不少内容都是作者提出井设计的创造性的方法,因此错误和不妥之处再所难免。5.4关联规则关联规则的概念是山R.Agrawal';人于1993年在[10]中首先提出的。此后在[11,14.22.23]中,他们又对关联规则进行了推)’。根据[II],}]'的定义:给定一个项目集I二卜=t,,,二,几}和一个记录集D={),T二I.如果X二1,Y二1且XnY=(t),则称X=>y为关联规则。如果在D中S%的记录同时包含X、Y,那么称X=>y在DI卜的支持度为S。如果在所有包含X的记录中有C%的记录同时还包含Y,则称X=>y在D中的可信度为C.提取关联规则就足要寻找出所有满足S>minsup(用户指定的嫩小支扫-度),和C>minconf(用户指定的最小可信度勺的关联规则X=>y。举一个典型的市场营销方面的例子。零售商数据库中保存着每笔交易的详细记录,包括交易号ID和交易中出现的所有商品号T,TcI。通过关联规则的挖掘可以得出“有10%的顾客购买A的同时还购买了B"等等诸如此类的规则。这种信息对J几商品的分类摆放,捆绑销件以及)’告宣传无疑有着十分重要的价值。由于在许多是实际的数据库系统中,数据斌非常巨人,闪此对于关联规则的提取必须给出快速、高效的挖掘算法。最早出现的提取关联规则的算法有AIS[10]和STEM[10].在此之后,很快又出现的许多种新的方法,其L卜以Apriori[11]算法最为经典也址]1代表。ICI此F面就将在Apriori算法的基础上,介绍我为‘。二枪集团计划决策支持系统’,设计的提取关联规则的DA(DynamicApriori)算法。5.4.1问题的分解关联规则的提取可以分解为以卜两个阶段[14]:I、从1=和n(2,...,im}中寻找出所有支持度不低于最小支持度minsup的子集:Largeitemsets,设itemset为1的子集,它的支持度sup(itemset)=S代表D中有S%的记录包含itemseta支持度人于等于minsup的itemset称为Largeitemset。包含有k个元素的Largeitemset又称为Largek-itemset。在卜一}'i中将详细介绍寻找所有Largeitemsets的算法。2.kk据所有的Largeitemsets来户:二1二关联规则。”片尸衅 海交通大学硕I学位论文因为关联规则X=:>y成立的充分必要条件是:XUY为Largeitemset井1=1.sup(XUY)/sup(X)>minconf*,详细证明参ASCI),闪此根据I)中发现的Largeitemsets,通过计算(*)式.便可以提取出所有的关联规则。从Largeitemset得到关联规则的具体算法也将在卜一竹中给山。5.4.2Apriori算法汪Apriori算法中,寻找Largeitemsets的基本算法如h:L,={Large1-itemsets);for(k=2;Lk_,x中:k-))Ck=Apriori-gen(Lk_,);/l参见[11)forallIEDdoIforallcEqcontainedin!doc.sup++:}Lk=)c〔CkIc.sup?minsup);}Answer=UkLk;图5-1Apriori算法Figure5-IAprioriAlgorithm如图5-,所示。首先扫描一边记录集D,产生Large1-itemsets.然后由乓_.(k=2,3,...)通过连I操作Lk’Lk),’生候选Largek-itemsets:Ck(即有rif能frk为Largek-itemsetf'Jf7i有itemsets),“体的连接操作为Apriori-genQ,还接的条件为:VP归,.t,.../j,。(=ti,ti,⋯‘。)。:,,“。一ti=(n=1,2,',、一,),‘。,11,。按h来扫描一遍记录集D,对于每条记录IED,将C‘中所有包含于t中的itemsets:c的支持度加1。衣19.1该itemsets在Dil,又出现j'次。在核个扫描结束后,从〔’*III选取出所有满足最小支持度minsup的itemset构成L,。以上过程,依次类推,反复执行八到L,_,=(D,便叮以得出*“终1)i有的Largeitemsets=U,L,。”哟哪娜布一‘戚攀 5.4.3关联规则的产生为了产生关联规则,考虑以I`结论。设1为一个Largeitemset,a为1的1.C怠”空I集,。二卜。是关联规则当且仅当sup(l)/sup(.)>minconf(证明参见[II])。根据这个结论最直接的算法是:对于甸个Largeitemset,分别验证它的所有非空子集,从而找出所有的关联规则。但问题井不就这样简单,因为还必须要充分考虑算法的执行效率。为此再给出以卜的结论:如果关联规则“=>1一a不成立,那么对任意aca,关联规则a。l一a也不成立。该结论为设计一个高效算法.提供了导向。对某个Largeitemset1,首先产生后键a为LargeI-itemset的关联规则:1一a=>a。然后利用所有这些后键a,使}II图5-2中的ap-genrules函数,产生后键a'为Large2-itemset的关联规则1一a'=:>“,。依次类推,自到递归结束。完核的算法在图5-2中给出。forallLargek-itemsetsl,,k>_2do(H,州关联规则的后键!这种关联规则由1*产生,井且后键为LargeI-itemset}ap-genrules(1,,H,);蛋ap-genrules(l,,H=,){if(k>m+1)夏H毋,..=Apriori-gen(H=,);fol.a...气aeH=,.,do让了.、sup(',)lsup(lk一k"')>minconf)outputrulel*一气+。冲气+.;elsedeleteh==ifromH,,,,,;Jap-geurules(1,,H,,,.i);}图5-2产生关联规则的算法Figure5-2GenerationofAssociationRules39_协么‘琳绍欲 1少净交通大学硕卜学位论文5.4.4对Apriori算法的改进:DA算法在Apriori算法的基础上,接卜来详细介绍我设计的DA算法。DA算法是针对提取关联规则两阶段中的第一阶段,即Largeitemset的寻找。它主要有以h二个特点:t)在扫描记录集D的过程中,ar,中间检杳点。2)由一个更为高效的DA-genQj%法来取代Apriori-genQ算法.3)引入等价项日类的概念,在扫描记录集的过程中,同时还合并l中的等价项日类.卜面首先介绍DA算法的这二个特点,然后给出完格的DA算法。5.4.4.1设置中间检查点川剑代表D中记录的个数,cI,代表在扫描D的过程中,读取第p+l条记录之前候选Largeitemsetc的状态,那么可以有如卜两个明显的结论。定理5.1设0(s.sup-s.check_sup)min=s.sup-s.chec悦sup://s.check_sup代表当扫描至中间检杳点时,s的支持度。if(c.sup_2Answer+={{crassn小IPassnil2:2Answer+={{classn!}:returnAnswer:}图5-5发现等价类的算法Figure5-5AlgorithmforDiscoveryIdenticalClasses孤嗽补芬翻料 }几海交通人学硕卜学位论文由Find-class(Lk,I)得到由所;A'",'r''价类构成的集合:E=(class,,classz,.,class=。等价类的合井发生在对D进行扫描的同时,算法如卜Combine(E,tC_I){forallclasseE,c(={1,,12,⋯,1。})一(,nclass)doif(n:2)t-=和z+',1=J:returnt;}图5-6合井等价类的算法Figure5-6AlgorithmforCombiningIdenticalClasses举141来说,PRI=(ACDEFG),L。一{ABC,ABD,ABE,CDE),则E,Find-Class(L,,I)=(((AB},(FG)).在进行竹价类合井时,对每条记录合井^B与FG。比如:Combine(E{ABCDEF))=(ACDEF);Combine(E,(ADFGI))二{ADFI)o5.4.4.4DA算法最后我们给出完鞍的DA算法:L,={LargeI-itemsets}:E=中;for(k=2oLk-,m;k++){Ck=DA-gen(L,_,);forall‘,。D(i二,;i<1几};i什)do(if‘,一(}Dk卜卜minsup))(“在实际代码中可以根据中间检杏check(Ck);/将代码分为两段。forallcECkdoc.check_sup=c.sup1Combine(E,l;);乙=count-support(t,,Ck,k);/同[12]将q中所有包含于‘,中的itemsetsif(孔.sup>幻then几,、一+认};//M支持度力u1,,树‘进行修剪。姆 卜海交通人学硕卜学位论文forallcEqcontainedin1doc.Sup++;}if(Jokf==0)thenbreakLk二{cECkIc.sup?minsup);E=Find-Class(Lk,I):forall。。LkU{I}doCombine(E,C);}Answer一UkLk:图5-7DA算法Figure5-7DAAlgorithm5.45实验结果对比与结论5.4.5.1实验数据F面将通过两个实例来验证DA锌法的有效性。第一个例子为实际应用,使JIJ“:枪集团”销售数据仓库中的19000多条V'3t';记录来进行DA算法的性能分析。第立个例J'使用人I:合成的数据,数据合成的方法参见【川。FIN仅将合成后数据的各项参数VA如卜,数据记录集中记录的个数。二5000-25000.各条记录中包含项目的平均数T二5。不可扩展(1JLargeitemsets的平均LWA'1=3.项目的个数N=20.5.4.5.2实验结果对比我们使用VC++,在PC586/133(内存为16M)上实现了DA和Apriori算法。实验1的结果在表5-I中给出。表中列出了DA算法在像步迭代过程中的各项性能参数,这些参数其实正反映了DA算法较Apriori有所提高的原因。表5-IDA算法在每步迭代过程中的各项参数Table5-1ParametersofDAAlgorithminEveryStepIDA-gen中山nap淘C4中问检杏点淘汰L被合少1的stephm汰的itemsetfrl个数的itemset的个数顶日数117/一}/一12IS一l。2170105833I316一}336321}34I3一}I一}10!一{4 I几海交通人学硕卜学位论文在实验一中,我们使用合成的数据来对比DA与Apriori算法。在图5-8(a)中,POX小支1.1度为2%。记录个数从5000起,每次递增5000,k1.到25000,在图5-8(b)中,记录个数li'il定为10000最小支持度分别为2%,1.5%,I%,0.75%和0.5%<实骗结果来肴,DA算法的效率优于Apriori,执Rn执行--0,一Auriori行6n,o-一~:时时dn间‘间no‘0500050%1%().7F%(150'0.0000150002000025000了1众小支于们u记录数吊图5-8(a)DA与Apriori算法的可扩展性图5-8(b)算法执行时间与最小支持度的关系Figure5-8(a)ScalabilityofDAandAprioriFigure5-8(b)RelationshipBetweenExecutiveTimeandMinimalSupport5.4.6算法小结在本,1中着重分析作者提出的DA算法,该算法以经典的Apriori算法为基础,提出J’中间检杏点,DA-gen算法和等价类等概念和方法。从实验结构来石,取得一r一定的效染,DA算法较Apriori有所提高。5.5序列规则序列规则同关联规则相似,其日的也是为了发现数据间的联系。但关联规则屯在发现数据间的横向联系,而序列规则的侧重点在于分析数据间的前后(I)I果)关系Jh对序列的发展提供顶测。仍然以零i菊街数据库为例,典取的序列规则形如:“有10%的顾客在购买A以后还会购买B",它可以发现用户潜在的购买模式.另一个非常典取的例子是股A11i行情。各种股票的价格和成交斌随着时间不停地变化,形成时间序列。将序列规则的分析方法运川于股票行情分析,则可能得到如卜的规则:如果x股上涨10%,井且Y股的成交斌减小5%.那么Z股将在5犬以后上涨10%e与关联规则相比,序列规则的形式是多样化的。这种多样化土要表现在两个方血。首先,序列规则是以时间轴为依据的,而时间可以有多种粒度,即可以从日期,星期,月份,年份等多种细}}程度不同的角度来观察同一序列。因此序列规则又可以分为单·粒度和多粒度。此外,序列规则的拓扑结构也是多样化的。它不象关联规则只有单一前键和后键,序列规则也可以发现具有”常复杂结构的时向模式。较有代表性的儿个序列规则挖掘方法为:AgrawalIIISrikant}人捉出的序列摸式方法[14,1习,HeikkiMammila等人提出的从,'Jf件序列中提取频繁元集的方法[16],以及ClaudioBettini和SeanWang等人提出的从多粒度时间序列中发现频繁事件摸式的方法[17]0在本节中将详细介绍作者为“二枪集团计划决策支持系统”设计的一种从多粒度时问序列中提取模糊规则的数据挖掘方法。以及使用人I一神经网络和模糊逻辑进行销竹时问序列进行预测的算法。45一、一热零、、、。 卜海交通人学硕卜学位沦义5.5.1多粒度时间序列中模糊规则的提取5.5.1.1模型的建立与问题的定义在这一iy里,首先建立多粒度时间序列的数学摸刑,然后此基础上对提取模糊规则,所涉及的一些概念给出定义。时间序列在数据挖翻之前,首先要搜柒人址的相关数据J!存入到数据仓库中。从时间序列的角度来石,数据仓库中的每个数据单元叮以被抽象为一个一MR(".)。其中‘是时间变{i0:,而口代表数据变星,反映数据单元的实际意义,诸如某种商品的销供金额,股票的价格艺等。由此,对于时间序列可以给出如卜的定义:定义5.:时问序列。足个有WI-t(li,oib(lz,-ZI...,(l,=.J}满足:li<1,.1(i=1,2,...,n一1)。多粒度时间序列在概述中己经指出,对于时间序列来说,可以存在细W程度不同的多个描述层次。为了准确地表达时间序列中的多重粒度,戎们参用了【17]中的表达方式。定义5.3设T=Coo,+二)(T代表时间),则2‘为T的幂集。如果Fr是从止核数集Z`到27'的映射,井且满足:对于任意止格数i,j,i‘。且支持度5(r)>5。。5.5.12模糊规则提取的方法变量的模糊化在定义5名中,模糊规则r内的子命题:“wis月淞岑、知bsel”代表对变徽w的模糊化。其含义就是川模糊子集Fuz刃)S“b肥1来代表变址w。确定隶属函数的具体过程如卜隶属函数FSIFSZFS3FS4FSSFS6FS7变吸b图5一9模糊化隶属函数Figures一9FunctiollofFuzzyMembershiP:)给定多粒度时间序列艺=(a,尸t,户2,⋯,产”)。﹁了、通过,.算日砂有的变从J、V-一。0不rV.月.‘.曰、,产2)对J、艺中的每一个粒度函数召-尹、作,.U1确定所有v伪)的取值区间卜伽工b伽)]。(对于△v(n)使川公式△v(n)=v(n)一v伽一1))3)在区间[a伽),b伽)1中产生均匀分布的隶属函数,如图5一9所示。必须指出,当变斌处于不同的时间粒度尸时,其模糊化隶属函数是不同的,而汉L气变城对应于v、△v时,它们的隶属函数也是不同的。假设在实际的系统中,梅个隶属函数都丫J,个不同的模糊子集,那么.对J多粒度时间序列2=(a,召,,产2,⋯,产。),总共将产’}书 日行交通人学硕卜学位论文mx2x7种不同的隶属函数模糊子集。时间跨度的模彻化在多粒度时间序列中,时间跨度dU}i(ni)>fez(n2)}在其表达的精确程度上也存在着模糊性。而且一般来说,时间跨度越长,这种摸糊性就越强。所以,在本文中对时间跨度f-ij样采川了模糊化的处理方法。具体来说,这种方法分为两个步骤:1)时间跨度中粒度的变换由于在时间跨度d[pt(n)+p,(n2)j的定义中,涉及到两种不同的时间粒度函数,I.和P2,囚此在模糊化之前,首先要将时间跨度变换成同一时间粒度尸h的时间1,dl'm'ti:d[pi(n,),fez(n2)]一‘一。;,其rpn;一Ln.上,‘一Ln2绘。为了避免由F-V1.IQPfi数的变换而降低时间跨度的粘度,N应该选抒细iifi'度圾高的粒度函数。2)时间跨度的模糊化表达经过变换以后,便可以对单一粒度产h的时ful1i71An:一n,进行模糊化处理。I-IN以k刊粗,为实例,给出模糊化隶属函数的具体形式。星期月份年nI_n212345791I1417212530365400图5-10时问跨度模糊化隶属函数Figure5-10FunctionofFuzzyMembershipforTimeSpa如图5-10所示,求属函数的选择是以日期、)己期、月份、年份等时间粒度来作为从川的,井且随着时间跨度的增长,模糊子集的范围也越来越人。从实际意义出发,隶展9.116应该有有限个模糊子集。在这里总共设了3百个模糊子集,时间间隔的上限取为400大。总结以上的模糊化过程,Jf根据第二竹中对提取模糊规则问题的描述,可以得到如卜的数据挖掘方法:对所有的模糊规则:。R,分别计算其置信度C(r)和支持度S(r),然后提取出所有C(r)>C=I1.S(r)>S。的模糊规则。当然,这只是一种最0.接的挖掘力祖,没有考虑到对算法的优化。为此,在3)4)两个小声中,将给出提高数据挖掘效率的措施。3)时间序列的预处理所有被提取的模糊规则:都必须满足C(r)>。。,S(I.)>:。。从w信度C(r)和支持度护 卜Na交通人学硕I.’翔立论文S(r)的定义可以得出:.r中前键和后键都成a:的个数>s=*co*Sum;.r中前键成立的个数>so*Suni。(Sun?为E中所有前键的个数)根据这两个条件,可以在提取模糊规则之前,对时间序列进行一些必要的顶处理:a)统计所有n?x2x7种不同的隶属函数模糊子集FS在模糊化过程中被访问的次数f(FS).,b)如果f(FS)<_so*co*Sum,那么对W中所有属于FS的变星w作上标记R(FS),表明"wisFS',不能在任何规则中出现。同样如果f(FS)!}so*Sum,那么对变n;w作上标记F(FS),表明“、isFS',不能在规则的前键中出现。c)对于同时标有两个R标记的变拭w,可以将它从W中删除.4)对W中元素进行排序除了删减时间序列以外,对W中的元素按时间顺序进行排序,也可以提高数据挖掘的效率。W经过排序后成为序列X,X满足:如果Ln,TMaxDeiay)ForEvery(叭iny)AND(w.xw,){ForEvery(Rule,一:F(w,(p)isFS.)ANDd,k('J,'3('3)1isFSI)THENw3扣3)isFS,;)(Sum++;Ru)e-Keykey(r)=(w,(},)i-,FS,)AND(d2[/,,(ni).}3(n3)}i-,FS=)‘。(notF(FS,))-THEN{S(key(r))++;11'(101R(R}3))THENB(r)++;};Until(w,isendofX)ForEvery·i.R(C(r)=B(r(key(r))'S(r)S(key(rYSum;}b)提取出所有ti信度C(r)>C=11支持度S(r)>.S。的模糊规则。5.5.1.3实验结果对比卜面以三枪集团销11数据仓库中H9肖售记录为实际应用对象,来验证以I泊勺数据挖#!li方法。将某段时间内产生的所有商.u销1;'.记录.以销伙时间为顺序,构成一个时间)1矽q。时IM粒度函数分别选川:日期、h.J81、月份和年份,日期为!Lt高细}Y4,11A的})寸I'u1F0,Q。对变从进行模糊化时,每个求属函数均选川7个不同的模糊子集,时间跨度模糊化时,总共有31个模糊子集,最长的时I'al间I4AMaxDelay=400大。置信度c。取0.45,支持度Sp取0.150在衣5-2中给出了时间序列长度与挖圳时间之间的关系。在表中Ali二day {飞海交通人学4,j!卜学位论文p2=week,p,=month,,a4=year。从实验结果来石,两者基本上旱线性增长关系。在表5-3中,对多种粒度函数的织合进行了比较。从表中可以看出,引入多重时(Eli粒瓜尽管使挖掘时间增长,但提取出的规则数同样也有所增加。表5-2时间序列长度与数据挖如所月扣寸间的关系(粒度函数为:A,产2Pa,P4)Table5-2TheRelationshipbetweenLengthofTimeSerialandDataMiningTime(GranularityFunction:,U,,42,PsIP4)时间序列长度(天)}数据挖掘所用相对时间50011000一}1.9615002.8520003.81表5-3不同粒度函数组合的数据挖掘结果的比较Table5-3CompareofDataMiningResultFromDifferentGranularityFunctions时间粒度函数挖掘结果对比尸尸=产2尸,,尸21户3召1,产2,刀3,声勺挖掘相对时间】I1.93一}2.67}3.25挖掘出的规则数17}2538}425.5.1.4结论在多粒度时间序列中提取模糊规则的数据挖翻方法是一种新的尝试。在本)y中,小仅建立了多粒度时间序列的数学模型,井对在提取摸糊规则中所涉及的诸多概念都作出了定义。在此基础上给出了提取模糊规则的数据挖#6算法。从实验结果来石,取得了定的成功。当然对这种类刑的挖掘方法还有许多地方有待改进,进一步的研究包括:如何扩充模糊规则的形式,如何更合理地确定隶属函数模糊子集,如何进一步提高挖#1i算法的效率,.,.等。5.5.2基于多粒度时间序列的预测方法上一1.j,介绍我为__枪集ld1的数据挖绷设计的种模糊规则的提取方法,这}}}-1`i17以集团的决策支持具体应用为背景,以销售预测为应用对象,介绍一种基于多粒度时间序列的顶测算法。在二枪集团的决策过程中,对销售数量的准确预测始终是一个非常复杂的问题。这种复杂性士要体现在两个方面。第一,时间序列的变化是其内部和外部诸多因素综合作川的结果。这些因素同序列之间的互动关系,一般难以准确地给出模取或定义。其次,不同的用户,从其白身的需要出发,对时间序列的预测往往会有不同时间粒度的要求。这些复杂性,给设计一个合理有效的预测方法带来了很人的困难。ILI今为IL.,尽管有许多种的预测方法,但人多都是丛1几1统的统计模烈,如)III归s?i1;李象 「海交通人学硕is学位论文(Regression)和^RMA(AutoRegressionandMovingAverage)[18,19]'o近儿年来,Ill于人};神经网络(ArtificialNeuralNetworking)和模糊逻辑在模式识别方面所取得的成功,许多人开始考虑将ANN与模糊逻辑运川到预测算法中来。这方面的4)(究虽然刚刚起步、但己经取得了一定的成功,这方面的例子参见[20,21).在本iy中,将一上一i1的I一作作为基础,给出系统模?l}以及问题的定义,然后详细介绍系统框架和预测算法。最后是实验结果对比和结论。5.5.2.1问题的描述设时间序列为Q,PI=u2,...I/I是p不同的时间粒度函数,那么多粒度时I"J)f列的预测问题就是要在给定粒度函数、。加i,Ftz,...,P=J和白然数N的情况卜,顶测Y-。的1‘川N)值。其中。和‘rfA于同一数据单元,而且白然数N满足:对'd(1,d,,d2,...试,,刃。。和da。,.[(N),ti114ir与分类井法相反,聚类分析方法的输入集是一组未标定的记录。其目的足根据定的规则,合理地划分记录集合,Jt用显式或隐式的方法描述不同的类别。所依据的这些规则是由聚类分析1.具定义的。由于聚类分析可以用不同的方法.所以对相同记录集可能有不同的划分。实际上,聚类方法可以看成是分类方法的逆过程。聚类分析方法最为经典的方法有:CLARANS,PAM[24]和CLARA[25].5.7本章小结本章介绍了数据挖掘技术所涉及到的各个方面,包括数据挖掘产生的背景。它的定义,技术特点和技术分类等等。作为本章的重点,着重介绍了我在科研和硕十论文撰写阶段,在数据挖掘技术的某些前沿领域中所作的探索性尝试和努力。这些「作集中表现在对关联规则和时间序列规则的研究方面。它们土要包括:.对关联规则提取算法的研究。在现有算法的荃础上,提出了DA算法。从实验效果来石,其性能要优了:原丫IIri八priori,.多粒度时间序列中模糊规则的提取。创造性地把摸糊规则同时间序列结合在一起,使得对时间跨度和事件类型的描述更为合理和准确。同时也给出了提取模糊规则的算法。从实际结果来石。取得了一定的成功。.采用人I一神经网络与模糊逻辑相结合的方法对多粒度时间序列进行预测。这种方法不同于原有的许多种基于统计的预测方法,它把人{.神经网络与模糊逻辑很好地结介起来,并运用到预测算法中去。同时这种方法也突破了以往仅仅针对单一粒度进行l州则的局限性。应该说这种中预测方法的提出取得了一足的实际效果,从实验的结果来石,也证明了这一点。从总体上来说,数据挖掘这一门学科在目前还处于刚刚起步的阶段,还有许多问题有待人们去解决,也还后许多新的领域有等待人们去开拓。文章中的许多内容都是尝试VI的研究和探索,希望作者在这方面的努力能够对数据挖绷技术的发展起到一点.哪怕足微小足道的作用.忘琳一匕__,渭 I一海交通人学硕}:学位论义第六章决策支持系统框架结构的研究在前儿章中,己经分别介绍了数据仓库.联机分析处理和数据挖圳等技术。就这些技术本身而言,它们各rI椰有其较为独立的理论基础和较有针对性的实际应}日。但足。们’为一个面向企业高层管理和决策的决策支持系统,如果仅仅由儿个相互独立的子系统组成足远远不够的。因此,在决策支持系统的设计和开发中,必须要能够针对企业的实际需求,合理地将所有的技术连同企业的内部管理有机地结合起来,并形成一个统一的、完核的体系结构。在本章中。作者将从建立一个统一完瑕的决策支持的系统的目标出发,分析井探I寸祛于数据仓库、联机分析处理和数据挖掘技术的决策支持系统的系统枢架。从理论的,幼廷,讨论决策支持系统的框架结构,井着重分析如何将各种技术核合到一个统一的决策支持系统中来。在本章的最后,还将要以三枪集团计划决策支持系统为实际应月」背景,介绍在系统设计和开发的中所采用的系统方案。6.1决策支持系统框架结构的理论研究数据仓库和数据挖掘技术的出现,不仅为决策支持系统的智能化发展提供1新的力J,同时也指明了新的方向。这土要体现在两个方面。首先,数据仓库的出现,取代来原来以数据库作为基础的决策支持基本模式。在数据仓库这个专门针对各种分析和杏询而建立的底层系统之上,现在可以非常方便地构建各种上层的管理和决策应用,决策支持系统对企业管理和决策人员所能提供的支持也将变得更为有力。其次,在数据仓库的荃础上,联机分析处理和数据挖掘等技术的出现,为人们构建个智能化管理决策系统的理想和努力指明了力向。尤其是数据挖绷技术,‘白的出现代表J’当今数据库和人I:p能领域中的前沿技术。它改变了过去对数据只能进行简单处理的观念,也突破了决策支持中的知识只能山领域专家所提供的局限。.L的出现无疑把x'l,fiGff;决策x持引上了一条更为坚实的道路.本,l着重讨论如何在数据仓库的丛础L..将联机分析处理和数据挖翻等技术很好地快合在一起。最终为用户提供一个完善的,高效的决策支持系统。文章将主要从理论的.氖度,分析并讨论决策支持系统的墓本框架结构[31,321。木节中所要提出的理论框架也11足作M在实际的系统设计开发过程中所采用的结构。6.1.1系统框架如图6-I所示是作者在实际开发三枪集团计划决策支持系统的实践过程中,提出来的一种基于数据仓库和数据挖掘技术的决策支持系统框架结构。该体系结构从格体逻辑L石,土要由两部分组成。第一个部分的功能基本就是传统的决策支持系统,主要包括方法库、模no库、知识jli、问题处理单元和人机界面。另一部分则上要包括了数据仓库和数据挖翻部分。当然这两个,,港、一以、、。 I几海交通大学硕}学位论文6.1.3主要功能模块介绍在系统结构中士要的模块及其功能如F:数据仓库和数据仓库管理系统数据仓库在本体系结构中是基础,是毅个系统的数据来0"e数据仓库包含了在系统应用领域内的多年积累的数据。数据在进入数据仓库之前会有一个预处理,所以在数据挖掘和进行问题处理时可以显著地加快速度。数据仓库管理系统负责对数据仓库中数据进行管理,包括数据的增加,数据的廿入等等.由于在数据仓库中很少对数据进行删除和修改.闪此数据仓库管理系统部分要适J飞进行数据的增加。数据仓库中的数据存放应该要有利于对数据的访问,要能够同知识库,模型库和方法库有比较友好的界面。模型库和模型库管理系统模型是对现实世界中的事物、现象或者过程的简化描述。在决策支持系统中的干如t0l.:要是指数学模型,因为绝人多数的决策都是建立在数学的基础上的。模型库包含了在解决问题时所使用的模70,它的使用加强了系统的灵活性。在解决问题时可以使用多种模?vuo在木体系结构中,模取库还包含了数据挖掘所使川的模科,为数据挖圳提供更多的灵活性,而不是在数据挖All程序中将使用的模?5Q1&}定。同时,数据挖掘也可以为模型库挖掘出新的模Nil,或者通过对数据仓库中数据的拟合对摸?t?进行适当的改进。模型库管理系统负责模型库中模型的增、删、改,以适应新的要求。方法库和方法库管理系统方法库包含了在解决问题时所使用的方法。方法是建立在摸型的基础上的,囚此在决策支持过程中,需要依据模型来选抒相应的方法。方法库的使用进一步提高了系统的IX话性,因为在解决同一问题的时候,模7(Q只有一种,而解决问题的方法却有多种。在木体系结构中.方法库同样还包含了数据挖掘所使用的方法,一般情况卜这些方法都是声盯!till,模块的方法来实现的,井且定义了标准的调用接口。方法库管理系统负责方法库中方法的增、删、改,也就是对方法的统一的it日进11增加,删除和修改,或部,,HitL-9111".I:}的40CI以话应新拟则(BIJ:";R知识库和知识库管理系统知识库是在决策支持系统逐渐朝智能化方向发展的过程中逐步提出来的,,L}'1家系统和DSS的结合,是智能化决策支持必不可少的部分。知识库包含了在解决问题时所使1+1的知识,这些知识主要是用于对模M进行的推理计算。知识库的使用简化了系统的I_作过程,为系统的{作提供了依据,可以利MI已tiW9和在处理中获得的知识,而不必从头开始。在解决问题时用到的知识很多。变动性也越经常存在,故用知识库的方式保存知识。在本体系结构中,知识库中除了领域专家提供的知识之外还有在数据挖翻过程中得到的知识。从某种意义上说,这部分知识具有更人的实用性,毕竟这些知识是从实际的数据中得到的,和实际的关系更为密切,井且如果不进行数据挖掘,它们原本是为人们所被忽略的。知识库管理系统负贡知识库中知识的增、删、改,也就是对知识的更新,或者足在新环境卜的知识的变动。60 —一一一一一一一一一一止;ti塑鑫一N!I:1,V1.it文数据挖掘单元数据挖掘单元是枯个决策支持系统智能性的驱动部分。通过数据挖掘产生新的知识和规则,为问题的解决提供服务。在数据挖掘中.不仅使川数据仓库中的数据,而且使川其他二个库中的内容,模取库为数据挖掘提供模?呻I规则,方法库为数据挖圳提供方法,知识库为数据挖翻提供知识,为挖掘过程提供必要的辅助。数据挖圳的结果可以分别形成规则和知识,进一步充实模1(q库和知识库,为以后的问题处理所服务。问题处理单元问题处理单元是决策支持系统的功能核心,四个库及数据挖拥单元存在的最终1}的址为了进行问题的处理。在问题处理中,通过使川模J}1库中的模IN,在模职纂础上使川方法库中的方法,同时可以使”」知识库中的知识来加快问题处理速度,数据的获取山数据仓库中而来。使用数据仓库的日的是为了加快其中的计算速度,J「且可以避免对不相关的数州的访问。6.2三枪集团计划决策支持系统二枪集团的“基于数据仓库和数据挖掘的计划决策支持系统”是一个针对企业内部’卜产管理和!Ii场销供1.作所提出的决策支持系统。其[-1标和功能土要包括以h儿点:.根据对市场销钧情况的判断和对库存情况的统计,结合企业内部的生产能力,合理丫J效地制定生产计划。.及时了解集团分布在全国各地的销化网点的销竹悄况,为管理者提供对各种数据准确,灵活的信息杳询能力。0对企业内部的各种数据进行分析,从中发现有用的信息为企业的高层决策提供支持。6.2.1用例(UseCase)分析根据这些日标,使用面向对象的软件}一程方法(UML的方法[30]),可以把各种LI标和功能细化为若干个类的用例(UseCase)。它们包括:计划管理类:生产计划的决策和制定。生产计划的杏询,修改和删除。OLAP分析类:对库存情况的多维分析(OLAP分析)。对顾客情况的多维分析(CLAP分析)。对全国各个销售网点的销售数据的多维分析(OLAP分析).数据挖掘类:销售预测(时间序列预测算法)a相关性分析(关联规则)。时间序列中规则的提取。 卜海交通大学硕卜学位沦文这些用例之间的相互依赖关系入图6一2所示:图6-1计划决策支持用例分析Figure6-2UseCaseAnalysisforPlanDecisionSupportSystem石该计划决策支持系统中,从从木的功能是w根据对市场销售情况的预测判断和对库存情况的统计分析,结合企业内部的具体生产能力,制定合理的生产计划。因此生产计划的决策和'IYJ定在系统中处于核心的地位。在实际的系统中,山、J、计划信息的数9'ili;.较小,且相对较为独立,因此使用一个单独的数据库系统来存放计划信息。系统的另一个土v的功能是对各种数据的OLAP杏询功能。我们土要设计f..:个}hi1N的数据,以数据立方体的形式进行组织。它们足:销售数据立方体。客户数据立方体和库存数据立方体,分别对应于数据仓库中的二个不同土题和它们各a对应的CLAP多维汽询分析。第二个主要的功能足运用数据挖掘技术,对企业内部的各种数据资源进行分析,从,},发现有用的知识来为企业的高层决策提供支持。根据具体的企业数据的类联和特点,我们选择了数据挖掘技术中的时间序列分析和关联规则提取这两类方法。它们分别t1'对J‘命年理决策中销化时间序列规则的提取,销售预测和商品销供相关性分析。6.2.2三枪集团计划决策支持系统的框架结构最后,给出格个丛于数据仓库和数据挖抓技术的计划决策支持系统的推体框架。该fl1嘴 一止竺'xit生鲤竺'}-'1}'i.if?k架的核心是问题处理单元和数据挖掘单元。这两个单元从某种程度上,也正反映了企业决策活动的两个不同层次:杏询分析层和智能决策层。当然,这样的分类井一作是绝对的。许多时候两者都是同时出现或者相互结合在一起的.如图6-3所示,就是该系统的功能框架图。这一结构基本上使用了6.1竹中提出IYJ模型结构。而且针对企业的具体应用,为问题处理单元和数据挖翻单元赋予了M11刘较为明确的含义。管理决策用户界面L:1.‘:。.…。。.,……方法库模型库知识库三枪集团包括各种数据挖包括预测模型,包括专家的知识数据仓库掘的算法以及销OLAP多维分析和各种由数据挖fl,预测的力一法.的立方体模型翻产生的规则图6-3二枪集团计划决策支持系统功能框架Figure6-3FunctionArchitectureforPlanDecisionSupportSystemofThree-Gun6.3本章小结在这一章中土要讨论了,如何将数据仓库,联机分析处理和数据挖掘等技术统一到决策支持系统中的问题,即如何在数据仓库和数据挖掘技术的荃础上,构建决策支持系统。文章首先从理论分析的角度,提出了一个基于数据仓库和数据挖掘技术的决策支持系统框架结构模型,井对该模吧进行了详细的分析。然后又结合作者在系统设计开发过程中的实际情况,介绍了二枪集团计划决策支持系统的系统框架和功能结构。当然,在朝着智能化方向发展的过程中,决策支持系统的框架结构设计井无一定之规本章中所提出的系统模刚是一种尝试。从系统实际设计和开发的结果来石,该模Ifq能够较好地满足智能化决策支持的需要。 卜沟交通大学liot卜学位ifK第七章结束语和展望7.1论文小结在论文中,土要讨论了一个如何在数据仓库和数据挖掘的基础上构建智能化决策支持系统的问题。文章首先简单地介绍了决策支持系统的发展现状及其!蒯II的这种挑战,然后明确fVIII了决策支持系统朝智能化方向发展的道路.同时也指出了在发展过程中所涉及到的儿个关键技术,这些技术对构建智能化的决策支持系统起着至为重要的作用。在随后的儿个章',y中,文章依次介绍了与智能化决策支持系统密切相关的数据仓库,联机分析处理和数据挖翻技术,并以数据挖翻技术的分析作为论文的重点内容。数据仓库延决策支持的丛础。它的出现,取代r原来以数据库作为荃础的决策支I.ig本模式。在数据仓库这个专门针对各种分析和杏询而建立的底层系统之上,可以一I卜常方便地构建各种上层的管理和决策应用。论文在第三章中,详细介绍了数据仓库的理论,包括数据仓库的概念、特点和数据组织方式。然后,结合作者在二枪集团数据仓库实际设计‘II所遇到的问题,分别讨论了数据仓库的设计方法和向数据仓库导入数据的方法。在第几带的最后,又分析了实际数据仓库系统的体系结构。与数据仓库紧密联系的是联机分析处理技术。联机分析处理的日标是为用户提供快速、稳定、一致和交互性的访问机制,允许管理决策人员对数据进行各种深入的观察。在论义的第四章中,作者详细介绍了联机分析处理(OLAP)技术。不仅分析了它的理论从础,同时也结合具体实例,给出了在实际应用中开发OLAP的技术方法。应该说,第四草所介绍的内容,代表了OLAP技术的目Ijij址新发展动向。接卜来,论文又较为详细的介绍了数据挖掘技术。数据挖掘是格个智能化决策支持的灵魂,它代表了当今数据库和人I.卿能领域中的最新发展。它改变了过去对数据只能进行简单处理的观念,也突破了决策支持中的知识只能由领域专家所提供的局限。它的出现无疑把智能化决策支持引上了一条史为坚实的通路.作为全文的重点。在第四章中,作者详细介绍了数据挖翻技术所涉及到的各个力IN,包括数据挖掘产生的背景。它的定义,技术特点和技术分类等等。作为论文的核心,右}r(:介绍了在科研和硕十论文撰写阶段,在数据挖州技术的某些前沿领域中所作的探索性尝试和努力。这些I作集中农现在对关联规则和时间序列规则的研究方面。‘已们上要包括::对关联规则提取算法的研究。在现有算法的基础上,提出了DA算法。多粒度时M序列中模糊规则的提取。创造性地把模糊规则同时间序列结合在起,使得刘时间跨度和水竹类型的描述更为合理和准确。同时也给出了提取模糊规则il',i算法。采用人1神经网络与摸糊逻辑相结合的方法对多粒度时间序列进行预测。这种方社‘小同于原有的许多种荃于统计的顶测方法,它把人!神经网络与模糊逻辑很好地结合起来,井运用到预测算法中去。同时这种方法也突破了以往仅仅针对单一粒度进行顶测的局限性.最后,论文在以上各章的基础土,从决策系统格休的角度,讨论了如何将数据仓)Iri.联机分析处理和数据挖掘等技术统一到决策支持系统中的问题。不仅从理论分析的角度, 卜海交通人学硕卜学位论文提出了一个基于数据仓库和数据挖圳技术的决策支持系统框架结构模型,井对该模7t'.进行了详细的分析。而且又结合作者在系统设计开发过程中的实际情况。介绍了己枪集团计划决策支持系统的系统框架和功能结构。7.2论文进一步研究工作的展望本论文在数据仓库的设计方法:多维数据(数据立方体)的联机分析处理操作方法;数据挖翻的19-础算法研究和决策支持系统的结构框架研究等方面取得了一定的成绩。这此成果,4i三对二枪集团的计划决策支持系统的设计和开发『}.都产'I.f·定的效果。fil;}-,!B也消楚的看到,在通往智能化决策支持的道路上,还有许多}:作要做,还有许多已知的和未知的问题有等待解决。在总结格篇论文的基础上,我想近一步的「作可以从以卜儿个力面入手:.近一步深入进行对数据仓库设计规范化标准的研究。现有的对数据仓库的设训,卜1是凭借设计者的实践经验。尽管己经有不少人提出了一些对数据仓库设计步骤的建议,但到目前为1卜,依然缺乏规范化的设计标准。.对数据挖掘4支术的近4步研究。客观的说,数据挖州技术所涉及的面一“二常I,泛,远II儿篇论文所能覆盖。而且从目前的情况来看,数据挖掘仍然是处于一个刚刚起步的阶段,其发展的前景也非常乐观。对于数据挖掘的近一步研究,我想可以从二个方血入手。第一是从算法分析的角度,设法在算法的效率方面提出更有效的挖掘手段。第几个方向是.拓宽数据挖掘方法的种类,使得通过数据挖拥所能发现的知识的类吧史为丰富。第二个是寻找数据挖期技术的新的应用领域。.对决策支持系统框架结构的近一步研究。在本文中尽管提出了一种基于数据仓巧之和数据挖粼技术的决策支持系统框架摸取但井不等于说,这个模取就延最优的。而lI相信随着新技术的不断出现,决策支持系统模7}Q.也应该作出相应的适应。 海交通人学M十学位论文附录I计划决策支持系统主要库表结构1计划信息表:jhxx计划号包装单位规格颜色本月计划包装要求包装方式制定日期交货期限计划标志复单标志字段内容{字段名类喇长度}!空俏1!描述计划号JhhChar24N以每个计划有一个唯一的代号NULL包装单位BzdwChar召N{】t制定计划的商品包装单位NULL规格GgChar3Not制定计划的商品包装规格标准NULL颜色Yschar10Nof制定计划的商品颜色NULL本月计划ByjhInt8Nof以月份为单位,进行计划制定NULL包装要求日zyqChar1包装方式日ASCh压rt制定日期ZdrqD川aNof计划制定的日期NULL交货期限JhrqDataNot计划必须完成的日期NULL计划标志JhbzBitINof计划是否完成的标志NULL复单标志FdbzBitlN0吐计划是否己经开始执行的标志NULL2复单表:fdxx字段内客字段名类型长度}空值描述计划号JhhChar24Not每个计划有一个唯一的代号NULL复单日期FdrqDa橄aNof计划制定所对应商品的完成日期NULL复单编号FdbhChar8Nof复单表的编号NULL复单规格FdggChar3Nof复单的商品规格NULL计划外JhwlBit是否为计划外商品复单嫩FdlIntNofNULL进仓标志JcbzBit商品是否己经进入仓库 卜海交通人学硕卜学位论文3销售明细表:xsmxAIMr,f坚}部门!客户一卜iIAE丽I可丽藻骊犷丁丽焉骊字段内容字段名类型长度空值描述商品代号SpdhChar16Nof侮个商品有一个代号,涵盖JINNULL料,款式,类别,颜色规格信息。部门代号BmdhChar30Nof该部门销售的商.钻NULL客户代号KhdhChar6Nof部门销售商riirlIh}c`J象NULL销售日期Oate8、NofM售完成的11NJNULL销售嫩Numeri10,2Nof销化的数徽,以10为单位计CNULL销售金额Money15,2Nof销售的金额NULL4库存表:kc商品货号}起始时间}到期时间}库存杖}计划7w:}完成部门字段内容字段名类型VIA}空值I}描述商品货号SphhChar12Nof描述该安全库存对应的商品货NULL号。起始时间QssjChar8该女全库存要求的起始时fil到期时间DqsjChar8Nof该安全库存要求的到期时间NULL库存杖KclDate10,2Nof该安全库存斌NULL计划斌JhlFloat10,2Nof计划的生产量NULL完成部门WcbmChar6完成计划的部门5面料登记表:m1dj字段内容字段名}fin?I}长度1}空值描述面料名称Mlmcchar12Nof表示该面料的名称NULL面料代号Mldhchar5Nof表示该面料的代号,NULL面料等级Mldjchar3NofNULL !海交通人学硕{:学位论文6商品类别表:splb字段内容字段名类烈长度1}空值描述类别编码Lbbmvarchar2Nof商品类别编码NULL类别名称LbmcVarchar20Nof商品类别的名称:男女儿迈竹NULL7客户表:khdz字段内容字段名ttn描述客户名称KhmcChar30LUIZ书L4i客户的名称.每个客户有一个代号客户代号KhdhCharNof客户代号,僻个客户代号和一个NULL客户信息相联系,涉及客户地fix.,种类竹e闷..州8部门表:Vmxx字段内容字段名类1(Qr.度空值描述部门名称BmmcChar40部门的名称,包括总公司和卜属分公司部门代号BmdhChar6Nof部门代号,每个部门有一个代号,NULL分别有级别之分9客户表:kltdz字段内容字段名类型长度空值描述客户名称KhmcChar30客户的名称,娜个客户有一个代号客户代号KhdhChar6N0七客户代号,每个客户代号和一个NULL客户信息相联系,涉及客户地卜种类等。 一-——一一一一一一一一一一一一一-一-一-一一--卜海交通人学硕!:学位论文10商品对照表:spdz商品代号商品明细号商品货号商品序号商品名称商品款式商品面料商品类别字段内容字段名}VS?长度空值描述商品代号SPDHvarchar16Nof商品代号是裕个商品访问的核NULL心,所有有关商品的信息有此来,征个商品有一个代号商品明细SPMXHvarchar7Nof在商品中原来的系统所川的代号号NULL商品货号SPHHvarchar20NofX个商品有一个货号,与颜色,NULL规格相关商品序号SPXFIvarchar10Nof商品序号NULL商品名称SPMCvarchar36Nof商Ilfl名称NULL商品款式SPKSvarchar3Nof商品二级款式NULL商品面料SPMLvarchar4Nof商品_级面料NULL商品类别SPLBvarchar2Nof商品的类别,男女儿童NULL户沪洲户11地区对照:dqdz字段内容字段名类烈{长度空值描述地区代号}DQDHVarchar}2NotNULL}}地区名称DQMCVarchar16NotNULL12款式表:ks字段内容字段名类型长)交空iii描述款式名称Ksmcchar12表示该款式一级的名称款式代号Ksdhchar3表示该_级款式的代号,在用于维表中。 一一一一一一一一一一一一一一卫些圣亘人铡‘卜学位论文附录2计划决策支持系统程序开发文档说明1源文件清单主要窗体(Forms):I.Frinjhzhiding功能:用于计划决策的制定。2.Frmjhuanli.fnn功能:川于计划的管理,包括杳询计划与修改计划删除计划。3.Frmconfirmjh.fnn功能:用于计划的确认,土要针对生产部门的生产能力。4.Frmfudan.frm功能:AJT对计划执行情7h的管理,1:要fiti1"I'l的复VTS.,5.FrmjhExport.frm功能:计划信息的打印输出。6.Frmjincang.frm功能:商品进入仓库的箫理,以及对相应计划的处理。口.尸产7.FrinOLAP.fnn功能:对销竹,顾客和库存信息的OLAP杳询分析。8.Frm_DataMining.frm功能:数据挖掘模块,包括对关联规则,模糊规则的提取。9.FrinMain.frm功能:土控制模块.10.Frm_Verify0perator功能:系统登陆,检验川户身份。主要函数模块(Modules):1.ModForecast.bas功能:对销售数敏的顶测。2.ModAssociate.bas功能:关联规则的提取。3.Mod_Fuzzy.bas功能:模糊规则的提取。4.ModOLAP.bas功能:对OLAPServices的iJ!问1口。秘冲书一权挤沪黔、 IJ1q:交通大学硕1了学位论文2关键的全局变量与方法(定义在Mod_process中)PublicstrCnnAsString'PublicConnectionStringtoDB全局Iyj连接字符:112.PublicadocnAsADODB.Connection'PublicADOConnection东PublicadocmdAsADODB.Command'PublicADOCommand又4.PublicadorsAsADODB.Recordset'PublicADORecordset丘InitADO()'VI始化adocn,adocmd,adors氏CIoseADO(),关闭adocn,adocmd,adors东‘7I }沟交通人学硕!学位论义参考文献又1陈文伟,决策支持系统及其开发,北京,请华人学iL版社,19942谢康林,智能化决策支持系统结构框架的研究,L海交通人学学报,1996,6(30).76-80.Bijan.Fuzloklah,Adaptivedecisionsupportsystems.DecisionSupportSystems,1997,20,297-315,3W.H.Immon.BuildingtheDataWarehouse,JohnWiley&Sons.Inc..199304王珊,数据仓库技术与联机分析处理,北京,科学出版社,19985张忠能,设计数据仓J八了,」乙海交通人学学报,1998,32(10).51-54.6MichaelCorey,MichaelAbbey,SQLServer7DataWarehousting,A京。北京希q{电子出版社.2000,7萨师炕,王珊,数据库系统概论,第_版,北京,.丸等教育出版社.1990.8WilliamC.Amo,SQLSERVEROLAP开发指南,A匕京,电子{一业出版社,200009MicrosoftWhitePaper,Microsoft,1998.10R.Agrawal,一Imielinski,A.Swami,MiningAssociationRulesbetweenSetsofItemsinLargeDatabases.ProceedingsofACMSIGMOD.1993.207-216.11R.Agrawal,R.Srikant,FastAlgorithmsforMiningAssociationRulesinLargeDatabases,冬Proceedingsofthe20"InternationalConferenceonVeryLargeDataBases.1994012J.S.Park,M.S.Chen.P.S.Yu,AnEffectiveHash-BasedAlgorithmforMiningAssociationRules,ProceedingsofACMSIGMODConferenceonManagementofData,1993,175-186013欧阳为民,蔡庆生,葵J`-"k自分布的关联规则高效发现算法,软件学报,1997,10(7)14Agrawal,Srikant,FastAlgorithmsforMiningAssociationRules,Proc.Ofthe20`Int'IconferenceonVeryLargedatabases.1994015R.Agrawal,R.Srikant,MiningSequentialPatterns,Proc.Int'IConf.DatabaseEng.,IEEE.1995,3-14,16HeikkiMannila,HannuToivonen,Verkamo,DiscoveryofFrequentEpisodesinEventSequences,Report,UniversityofHelsinki,Finland,1997017ClaudioBettini,SeanWang,Sushi[Jajodia.DiscoveringFrequentEventPatternsNithMultipleGranularitiesinTimeSequences.IEEETransactionsonKnowledgeandDataEngineering,10(2),222-236.18C.W.Chase,Waystoimprovesalesforecast,JournalofBusinessForecasting,1993.12(3),15-17019L.A.Zadeh,Outlineofanewapproachtotheanalysisofcomplexsystemsanddecision‘processes,IEEETransactionsonSystems,Men,andCybernetics,1973,3(l),28-4420K.Chakraborty,K.Mehrotra,C.K.Mohan,Forecastingthebehaviorofmultivariatetimeseriesusingneuralnetworks,1992,5(6),NeuralNetworks,961-970,21H.Ishibuchi,K.Kwon,H.Tanaka.ALearningalgorithmoffuzzyneuralnetworkswithtriangularfuzzyweights,FuzzySetsandSystems,1995,71,227-293,72 !飞沟交通人学硕,位论文22Agrawal,Srikant,MiningSequentialPatterns,Proc.Ofthe11"Int'IconferenceonDataEngineering,1995.ns:GeneralizationsandPerformance23Agrawal,Srikant,MiningSequentialPattreimprovements,Proc.Ofthe5"Int'IconferenceonExtendingDatabaseTechnology,199624Raymond,JiaweiHan,EfficientandEfectiveClusteringMethodsforSpatialDataMining,玉Proceedingsofthe20"'VLDBCnoference,1994.25Raymond,JiaweiHan,EfficientandEfectiveClusteringMethodsforSpatialDataMining,TechnicalReport,UniversityofBritishColumbia,1994.Inductionofdecisiontrees,MachineLearming,1986,81-10626Quinlan,C4.5:ProgramsforMachineLearning,MorganKaufmann,1993.27Quinlan,Friedman,Olsshen,Stonc,ClassificationofRegressionTrees,Wadsworth,28Breunam,1984.29Shafer,Agrawal,Mehta,SPRINT:ascalableparallelclassifierfordatamining,Proc.22"'DataBases,1996,544-555Int'IConferenceonVeryLarge30刘超,张莉,可视化面向对象建模技术,北京,北京航大航空人学出版社,1999a31decisionsupportsystem,DecisionSupportT.T.Chuang,TheDevelopmentofanadaptiveSystems,1998,24,73-87.32decisionsupportsystems,DecisionSupportSystems,1997Bijan,Fuzloklah,Adaptive20,297-315.冬‘牡呱洁拼 }几海交通大学硕卜学位论文致谢两年半的时光很快就要结束了,这段时fe」对我的人生而言,有着非常重要的意义。苏在完成这篇硕士学位论文之际,我不由得感慨万千,在我的脑海里再次浮现出了我外婆的面容.她在我硕十论文的撰写阶段,不幸去世了。如果她能够石到我的这篇硕卜论文,她一定会非常高兴的。此时此刻,我想说的是对许多人的感谢。首先应该感谢我的父母,是他们二十多年的养育之恩,才有我今天取得的成绩。我也非常感谢我的导师,谢康林教授,是他把我带入到了数据仓库这个全新的领域,也是他在论文选题,课题研究,论文撰写和毕业答辩等各个方面给予了我许多的关心和指导。止是谢老师悉心的栽培,才会有我现在取得的成绩。在我硕十阶段的学习和科研中,我同样还得到了张忠能老师的关心和指导。张老师对科研I:作忘我的投入精神足我学习的榜样,这也将激励着我在以后的学习和}_作,I,继续不断地努力。此外,我还要感谢钟经和我一起共同参与科研I_作的俞文彬硕十,李楠博卜和欧WI翻学十。我对和他们在一起研究,讨论和!一作的时间感到非常的偷快。从他们那坐,我祝到了很多的帮助。现在他们有的己经成为各白企业中的is干,有的则赴美继续学业,石:0七我‘目r一很想祝他们一切顺利。写到这里,我想感谢的人越来越多。夏雨人老师,余树福老师:和我钟经同个实验室的颜浩硕干,顾晓刚学十,马煌学r,邵纯学十,刘狄学十,张文凯学十,杨伙硕!;两年、!性以来和我同一个寝室的詹渊强硕十,朱俊硕十和钟嵘硕十。还有很多很多⋯⋯在这两年半的时间中,我得到了太多太多人的帮助,我应该感谢的人也太多太多。我很难一一列出他们的姓名。但是,我会把所有美好的回忆都将永远留在心中。人家曾经给予我的鼓励,帮助和支持将会激励着我刃敢地迈向新的人生历程。怜 海交通人学硕】:学位论文作者攻读硕士学位期间发表的学术论文1张竹润.谢康林,张忠能,多粒度时间序列中模糊规则的提取,上海交通人学学报,、甲.r2000,8录用待发表,2张竹润,谢康林,张忠能,一种提取关联规则的数据挖掘快速算法,上海交通大学学报,2000,10录NJV"i0发表。飞

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭