欢迎来到天天文库
浏览记录
ID:36751156
大小:1.84 MB
页数:75页
时间:2019-05-14
《基于数据仓库的数据挖掘技术的研究与实现数据分类的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学硕士学位论文基于数据仓库的数据挖掘技术的研究与实现数据分类的研究与实现姓名:吴林申请学位级别:硕士专业:计算机软件与理论指导教师:吴跃2001.3.1Z378102论文题目:基于数据仓库的数据挖掘技术的研究与实现硕士生:吴林导师:吴跃副教授摘要最近十年来,数据库规模同益扩大,数据量可达数GB甚至TB级,这些数据中包含了大量的潜在的有价值的信息,有的已被发现,有的还没被发现。如何有效地管理,利用数据库中数据,以及怎样爿‘能发现其中潜在的知识,由此需求就产生了数据仓库和数据挖掘技术。目前数据仓库和数据挖掘技术已经成为计算机界新的
2、研究热点之一,引起数据库、机器学习、统计等领域的专家的广泛关注。在本文中,首先讨论了有关数据仓库技术的基本概念,阐述了如何设计和创建数据仓库,接着讨论了数据挖掘定义、特点和分类,以及数据挖掘与知识发现的区别与联系,并深入阐述了基于数据仓库的数捌挖掘的巨大优势,然后具体地讨论了数据挖掘中的一个重要方面数据分类的概念,分类的标准,以及基于概念的面向属性归纳的分类模式的产生方法,最后给出了根据分类门限值动态调整概念层次树、对于数值型数据自动提取概念层次和自动产生分类模式的具体算法。√\,、,关键词:数据仓库f数据挖自匾,数据分类/面向属性归纳
3、Specialty:ComputerSoftwareandTheoryTitle:TheResearchonDataMiningTechnologyBasedonDatabase晒rehouseMaster:LiUWuTutot:Pm£、,ueWuAbstractWhentheyearcomesintotheinformationage,thedatabasesizebecomeslargerandlarger'thedatastoredinthedatabaseareoftenoverGBorTB,andtheymayhavemuch
4、usefulinformationthatisunknowntothedecision—maker.Howtomanagethesedataeffectivelyandefficiently,howtofindthepotentialknowledgeinthesedatawhichmaybeveryhelpfultodecisionsupport,theansweristheDatabaseWarehouseTechnologyandDataMiningTechnology.Thesetwotechnologiesarethenewh
5、otspotsinthecomputerworld,andattracttheattentionoftheexpertsandscientistsinthefieldofdatabase,machinelearning,andstatistics.Inthispaper,wediscussthebasicconceptsofthedatabasewarehouseandhowtodesign,buildthedatabasewarehouse.Andthenthedefinition,characteristic,classificat
6、ionofthedataminingisbeendescribed,andthebigadvantageofthedataminingbasedondatabasewarehouseispointedoutspecially.Atlast,theoneofthemostimportantaspectofthedatamining,dataclassificationisdiscussedindetail,andthealgorithmforautomaticgenerationofconceptualhierarchiesfornume
7、ricalattributesofadatasetandthealgorithmfordynamicconceptualhierarchiesadjustmentwithattributethresholdarepresented.KeyWords:DataWarehouse/DataMining/DataClassification/Attribute.0rientedInduction第一章从数据库到数据仓库1.1时代背景进入信息社会以来,信息技术经历了这样的发展过程:从计算机主机(Mainframe)的信息集中处理方式到个人计算机
8、(PC)的信息分布处理形式的转变;从单一的计算机操作系统到计算机互联网络操作的改变;从客户朋睫务器(Client/Server)计算体系到多层体系结构计算模式的转变;从单一数据库到大型数据仓库和从局域网到I
此文档下载收益归作者所有