资源描述:
《数据挖掘知识点》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘知识点:一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。数据库DB系统最主要的功能:数据存储、查询处理、事物处理。数据挖掘的主要功能:关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。数据预处理功能:数据集成,数据清理,数据变换,数据简化。二、数据挖掘的基本算法:1、分类:分类的目的是构造一个
2、分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到某一个给定类别。分类定义:给定数据库D={t1,t2,…,tn},元组tiD,类的集合C={C1,……,Cm},分类问题定义为从数据库到类集合的映射f:DC,即数据库中的元组ti分配到某个类Cj中,有Cj={ti
3、f(ti)=Cj,1≤i≤n,且ti∈D}。ID3算法:ID3算法是国际上最具影响和最早的决策树算法。首先通过检验数据库中的所有字段,找出具有最大信息增益Gian(A)的字段作为决策树碑的一个结点,再根据字段的不同取值建立树的
4、分支,对每个子集分支重复建立下层结点和分支,直到某一子集的结果属于同一类。信息量计算公式:I(s1,s2,……,sm)=-∑Pilog2(pi)(i=1,…,m)(S是s个数据样本的集合。类别属性具有m个不同值Ci。si是类Ci中的样本数。pi是任意样本属于类别Ci的概率,并用si/s估计。)由非类别属性A划分为子集的熵(也叫做信息熵)计算公式为:E(A)=∑(s1j+……+smj)/s*I(s1j,……,smj)(非类别属性A具有v个不同值{a1,a2,…,av}。利用属性A将集合S划分为v个子
5、集{S1,S2,…,Sv};其中Sj包含S集合中在属性A上具有值aj的数据样本。Sij是子集Sj中类Ci的样本数(Sij是子集Sj中类Ci的样本数)。)信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)例题:DaoutlookTemperatuHumidityWindPlayballyre1晴HotHighWeakNo2晴HotHighStrongNo3多云HotHighWeakYes4有雨mildHighWeakYes5有雨CoolNormalWeakYes6有雨CoolNorma
6、lStrongNo7多云CoolNormalStrongYes8晴mildHighWeakNo9晴CoolNormalWeakYes10有雨mildNormalWeakYes11晴mildNormalStrongYes12多云mildHighStrongYes13多云hotNormalWeakYes14有雨mildHighStrongNo类C1运动=“适合”,类C2对运动=“不适合”I(s1,s2)=I(9,5)=0.940计算属性天气的熵::54E(天气)I(2,3)I(4,0)14145
7、I(3,2)0.97114Gain(天气)I(s1,s2)E(天气)0.246天气C1C2I(pi,ni)Gain(温度)0.029晴朗230.971Gain(湿度)0.151多云400有雨320.971Gain(风况)0.048贝叶斯分类方法:贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。贝叶斯定理:P(X
8、H)P(H)P(H
9、X)P(X)主要算法:朴素贝叶斯分类、贝叶斯信念网络分类算法等。朴素贝叶斯分类:朴素贝叶斯分类算
10、法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。原理:(1)设样本有n个属性(A1,A2,...,An),每个样本可看作是n维空间的一个点X=(x1,x2,...,xn)。(2)假定有m个不同的类别,C1,C2,....Cm。X是一个未知类别的样本。预测X的类别为后验概率最大的那个类别,即算法将未知类别的样本X归到类Ci,当且仅当P(Ci
11、X)>P(Cj
12、X),对于所有的j成立(1≤j≤m,j≠i)即P(Ci
13、X)最大。(3)根据贝叶斯定
14、理得知P(Ci
15、X)=P(X
16、Ci)P(Ci)/P(X)。P(X)对于所有类为常数,因此只需P(X
17、Ci)P(Ci)取最大即可类的先验概率P(Ci)由P(Ci)=si/s估算Si训练样本中属于类Ci的样本数,s全部训练样本的样本数。(4)给定具有多属性的数据集,计算P(x
18、Ci)的开销可能非常大,为降低计算P(x
19、Ci)的开销,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则:P(X
20、Ci)=P(x1
21、Ci)P(x2
22、Ci).