用matlab实现大数据挖掘地一种算法

用matlab实现大数据挖掘地一种算法

ID:35689545

大小:84.00 KB

页数:16页

时间:2019-04-12

用matlab实现大数据挖掘地一种算法_第1页
用matlab实现大数据挖掘地一种算法_第2页
用matlab实现大数据挖掘地一种算法_第3页
用matlab实现大数据挖掘地一种算法_第4页
用matlab实现大数据挖掘地一种算法_第5页
资源描述:

《用matlab实现大数据挖掘地一种算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、一、数据挖掘的目的数据挖掘(DataMining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。二、数据挖掘算法说明确定了挖掘任务

2、后,就要决定使用什么样的挖掘算法。由于条件属性在各样本的分布特性和所反映的主观特性的不同,每一个样本对应于真实情况的局部映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系,给出了由属性约简求约简决策表的方法。基于后离散化策略处理连续属性,实现离散效率和信息损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性,可以充分利用现有数据处理不完备信息系统。本次数据挖掘的方法是两种,一是找到若干条特殊样本,而是找出若干条特殊条件属性。最后利用这些样本和属性找出关联规则。(第四部分详细讲解样本和属性的选择)三数据预处理过程数据预处

3、理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续)。本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。该数据表共303行,14个属性。即共有303个样本。将该数据表的前200行设为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方法生成相应的规则,再利用测试样本对这些规则进行测试。首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。数据预处理的第一步是整理源数据,为了便于m

4、atlab读取数据,把非数字数据转换为离散型数字数据。生成lisanhua.xsl文件。这一部分直接在excel工作表中直接进行。步骤如下:将属性“sex”中的“Male”用“1”表示,“Female”用“2”表示;将属性“chestpaintype”中的“Asymptomatic”用“1”表示,“AbnormalAngina”用“2”表示,“Angina”用“3”表示,“NoTang”用“4”表示;将属性“Fastingbloodsuga<120”与属性“angina”中的“FALSE”用“1”表示,“TRUE”用“2”表示;将属性“resting

5、ecg”中的“Hyp”用“1”表示,“Normal”用“2”表示,“Abnormal”用“3”表示;将属性“slope”中的“Down”用“1”表示,“Flat”用“2”表示,“Up”用“3”表示,;将属性“thal”中的“Rev”用“1”表示,“Normal”用“2”表示,“Fix”用“3”表示;将属性“class”中的“Healthy”用“1”表示,“Sick”用“2”表示;数据预处理的第二步:使用dm=xlsread('lisanhua');导入’lisanhua’.xls文件,在MATLAB中对一些连续属性值离散化。如下:1、[29,48]=

6、1,[48,62]=2,[62,77]=34、[94,110]=1,[110,143]=2,[143,200]=35、[126,205]=1,[205,293]=2,[293,564]=38、[71,120]=1,[120,175]=2,[175,202]=310、[0,1.5]=1,[1.5,2.5]=2,[2.5,6.2]=3。然后对数据进行归一化处理:由于不同属性之间的属性值相同,所以利用下面语句对一共13个条件属性中的38个属性进行如下赋值,使每条属性唯一确定。从而得到38个条件属性,只不过38个里面有且只能出现13个。程序如下:m1=[0,

7、3,2,4,3,3,2,3,3,2,3,3,4,3];k=1;w=m1(k);dm3=dm2;fori=1:3939dm3(i)=dm2(i)+w;ifrem(i,303)==0k=k+1;w=w+m1(k);endend从而得到dm(3)矩阵。而且决策属性分为1:healthy;2:sick。并且在38个条件属性中没有值为0。四、挖掘算法1、特殊样本首先在前200条样本中分别找出三条对应两种决策属性的重要样本,样本必须满足在同类决策属性下其他199条的13条决策属性中和它的13条条件属性数目大于等于10的前3条样本。2、特殊条件属性值其次分别对应两

8、条决策属性值的5条重要条件属性值(在38个条件属性里找),特殊属性值必须满足:(1)在对应相同决策属性下,此

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。