欢迎来到天天文库
浏览记录
ID:34806699
大小:1.92 MB
页数:51页
时间:2019-03-11
《浅谈数据挖掘中聚类和孤立点检测算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、山东大学硕士学位论文数据挖掘中聚类和孤立点检测算法的研究姓名:杨兰仓申请学位级别:硕士专业:计算机软件与理论指导教师:石冰20080405山东大学硕士学位论文摘要随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,己经成为人类面临的一大挑战。数据挖掘技术应运而生并得以迅猛发展,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。数据挖掘,又称为数据库中的知识发现,是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为
2、基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,类问样本的相似性尽可能小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支持的前提下进行的,它所要解决的就是在这种前提下,实现满足要求的类的聚合。聚类分
3、析的研究主要集中在聚类算法上,产生性能好而且实用的聚类算法是其终极目的。迄今为止,人们提出了很多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户,而且它们在理论和方法上仍不完善,甚至还有严重的不足之处。对聚类算法的进~步优化研究将不仅有助于算法理论的完善,更有助于算法的推广和应用。本文在分析了当前各种聚类算法的思想和方法的同时,针对目前基于划分的聚类算法存在的一些缺陷和不足,提出了基于粗糙集理论的聚类改进算法。解决了划分问题中不能准确设定聚类个数和只能用于挖掘球形聚类的问题,使得划分方法也可以用于发现任意形状的聚类。
4、绝大多数现实世界中的数据库都包含了“噪声"和孤立点数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。因此,本文在分析研究现有基于距离的孤立点检测算法的基础上,针对其性能和精度上的不足,定义了一个新的相异度函数来度量孤立点的强弱,从而使孤立点的“孤立”程度有了一个量化的尺度,然后将该相异度函数作为遗传算法的适应度函数,提出了基于遗传山东大学硕士学位论文算法的孤立点检测改进算法。在本算法中,用户只需指定要找的孤立点的个数,其他的一切均由该算法自动完成,这不仅减轻了用户的负担,也使得外界的影响达到最小。在综合数据集和真实数据集
5、上的大量对比实验结果验证了该算法的正确性,同时在性能和质量上也比其它的孤立点检测算法更加合理有效。关键词:数据挖掘;聚类分析;孤立点检测;粗糙集;遗传算法II山东大学硕士学位论文ABSTRACTWiththewideusageofinformationtechnology,datageneratedfromdifferentinformationsystemsbecomemoreandmore.Howtoutilizethehugeoriginaldatatoanalyzecurrentsituationandpredictfutur
6、eofquantitieseffectively,havealreadybecomeagreatchallengethatthemankindhasfaced.ThereforethedataminingtechnologyarisesatthehistoricmomentandCanbedevelopedrapidly,whichisattributedtothenecessaryconsequenceoftheconflictingmovementbetweentherapidincreasingdataandthepoorinf
7、ormationdaybyday.DataMining,alsocalledasknowledgediscoveryofdatabases(KDD),isaprocessingprocedureofextractingcredible,novel,effectiveandunderstandablepattemsfromdatabases.DataMiningisarelativelyyoungresearchandapplicationareabasedondatabasetechniques,whichsynthesizesmul
8、tidisciplinaryproductions,suchaslogicstatistics,machineleaming,fuzzytheoryandvisualcomputing,inordertoacquireu
此文档下载收益归作者所有