欢迎来到天天文库
浏览记录
ID:33394966
大小:2.21 MB
页数:73页
时间:2019-02-25
《基于粗糙集和遗传算法的大数据集数据挖掘应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、太原理工大学硕士学位论文基于粗糙集和遗传算法的大数据集数据挖掘应用研究姓名:张亦军申请学位级别:硕士专业:计算机软件与理论指导教师:胡彧20061201太原理工大学硕士研究生学位论文基于粗糙集和遗传算法的大数据集数据挖掘应用研究摘要数据挖掘(DataMining,DM)是从存放在数据库、数据仓库或其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但是潜在有用的信息和知识的过程。粗糙集理论由Z.Pawlak提出,经历了20年的发展。该理论作为一种全新的数学概念,已经在理论和应用上取得了丰硕的成果。它不依赖于数据集之外的附加信息,是处理含
2、有噪声、不精确、不完整数据的有力工具,在医疗诊断、模式识别、专家系统、机器学习、数据挖掘等领域获得广泛应用,是进行数据挖掘的有力工具。遗传算法是Holland于1975年首先提出来的一种基于自然群体遗传演化机制的高效探索算法。它摒弃了传统的搜索方式,模拟自然界生物进化过程,采用人工进化的方式对目标空间进行随机化搜索。它将问题域中的可能解看作是群体的一个个体或染色体,并将每一个体编码成符号串形式,模拟达尔文的遗传选择和自然淘汰的生物进化过程,对群体反复进行基于遗传学的操作(选择,交叉和变异),根据预定的目标适应度函数对每个个体进行评价,依据适者生存,优胜劣汰的进化规则
3、,不断得到更优的群体。本文应用粗糙集理论对知识分类的特点,结合遗传算法进化理论,对大型决策表中最优规则提取做了深入研究,提出了一个新的数据挖掘模-太原理工大学硕士研究生学位论文型。在应用该模型的系统中包含有数据预处理,数据离散化,知识约简,规则提取一数据挖掘的一些基本过程。针对大数据表字段过多,信息冗余大的特点,本文采用粗糙集的理论方法进行处理,在数据预处理和数据离散化的基础上,对条件属性进行约简。属性约简是挖掘的核心步骤,这里运用粗化算法通过判断表的相容性进行约简;对于数据量大的决策表仅仅属性约简是不够的,对大量的规则还要进行筛选提取。使用遗传算法进行优化筛选处理
4、,通过选择,交叉,变异后从大量的规则中得到较优的规则集。在系统的构建上,采用VC++开发工具和SQLSERVER数据库具体实现了一个基于粗糙集理论和遗传算法为核心模块算法的数据挖掘系统。最后,介绍了该模型在太原网通公司小灵通短信系统中的应用,提取出用户收发短信息成功与否的规则模式。通过验证分析,结果表明该系统是合理、有效的,实验结果有助于维护人员分析故障原因。其中群发短信查询分析模块已经安装在监控设备上运行了一年,及时发现了多起设备故障,为企业挽回了大量的经济损失。事实证明对于提高短信系统运行效率,改善网络运行质量有着显著作用。该方法模型的应用同时也是对多方法融合进
5、行数据挖掘的有益探索。关键词:数据挖掘;粗糙集;遗传算法太原理工大学硕士研究生学位论文APPLICATIONANDItESEARCHOFLARGEDATABASEMININGBASEDONROUGHSETANDGENETICALGORITHMABSTRACTDataminingisaprocessthatpeopleextractunknownbutusefulinformationandknowledgefromdatawhicharevast,incomplete,blurry,stochasticstoredindatabases,warehouseesoro
6、therinformationrepositories.RoughSet(RS)theorywasputforwardbypawlakZdislawin1982.Afterabouttwentyyears’development,ithasreceivedfruitfulachievementsonboththeoryandapplication.RSdoesn’tdependonadditionalinformationbeyondthedataset,anditisapotenttoolfordealingwithvague,imprecise,incomple
7、teanduncertaindata,anditisalsoanewtechnologyindatamining.RStheoryismostlyusedinknowledgereductionandanalysisofknowledgedependency,andalsowidelyusedinmedicaldiagnosis,patternrecognition,expertsystem,machinestudyanddatamining.Geneticalgorithm(GA)adoptssearchingmethodbasedonrandomtheory
此文档下载收益归作者所有