欢迎来到天天文库
浏览记录
ID:41295834
大小:148.00 KB
页数:7页
时间:2019-08-21
《文本挖掘算法总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、.文本数据挖掘算法应用小结1、基于概率统计的贝叶斯分类 2、ID3决策树分类 3、基于粗糙集理论RoughSet的确定型知识挖掘 4、基于k-means聚类 5、无限细分的模糊聚类FuzzyClustering 6、SOM神经元网络聚类 7、基于Meaning的文本相似度计算 8、文本模糊聚类计算 9、文本k-means聚类 10、文本分类 11、关联模式发现 12、序列模式发现 13、PCA主成分分析1、基于概率统计的贝叶斯分类算法概述:贝叶斯公式是由英国数学家(ThomasBayes1702-1763)创造,用来描述两个条件概率之间的关系,比如P(A
2、B)为当“B”事件发生
3、时“A”事件发生的概率,按照乘法法则:P(A∩B)=P(A)*P(B
4、A)=P(B)*P(A
5、B),可导出贝叶斯公式:P(A
6、B)=P(B
7、A)*P(A)/P(B)贝叶斯分类基本思想为:设决策变量为D,D1,D2,Di,…,Dk为n条记录组成的样本空间S的一个划分,将n条记录划分成k个记录集合,如果以P(Di)表示事件Di发生的概率,且P(Di)>0(i=1,2,…,k)。对于任一事件x,P(x)>0,则有:贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件X视为多个条件属性Cj各种取值的组合,当x事件发生时决策属性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法,
8、不能百分之百地确定X事件发生时Di一定发生。解决问题:预测所属分类的概率。通过已知n条样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”。2、ID3决策树分类算法概述:ID3算法是J.RossQuinlan在1975提出的分类算法,当时还没有“数据挖掘”的概念。该算法以信息论为基础,以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3算法以决策树D-Tree构建分类知识模型,D-Tree中最上面的节点为根节点Root,每个分支是一个新的决策节点,或者是树的叶子。每个决策节点代表一个问题或决策,每一个叶子节
9、点代表一种可能的分类结果,沿决策树在每个节点都会遇到一个测试,对每个节点上问题的不同取值导致不同的分支,最后会到达一个叶子节点为确定所属分类。..解决问题:预测所属分类。通过已知样本集记录,生成一颗“分类知识树”,给定一个未知“标签”记录,通过“分类知识树”来确定其所属分类。3、基于粗糙集理论RoughSet的确定型知识挖掘算法概述:1982年波兰学者Z.Pawlak提出了粗糙集理论RoughSetsTheory,它是一种刻划不完整性和不确定性的数学工具,能有效分析不精确、不一致(Inconsistent)、不完整(Incomplete)等各种不完备信息,利用数据进行分析和推理,从
10、中发现隐含的知识,揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事物的数学工具。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。解决问题:预测所属分类。粗糙集分类将样本空间S划分为上近似集(Upperapproximation)、下近似集(Lowerapproximation)、边界集(Boundaryregion),挖掘条件属性C与决策属性
11、D集合所包含的不可分记录(不能再细分,该集合中的所有记录都属于某一决策属性Di的取值),这些记录形成不可辨识的关系(Indiscernibilityrelation),由此确定分类规则:IF<条件属性C成立>THEN<决策属性Di发生>即,如果满条件C,则其所属分类为Di。IF中的条件C可以是单一条件,也可以是组合and(并且)组合条件。BIC给出的是“最小分类规则”。所谓“最小分类规则”是,最少的条件组合。例如一个人属于“高”、“富”、“帅”,条件为:“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“英俊”等条件来判别,通过
12、“粗糙集”分类计算,得出最小分类规则可能是“IF财富>=XXX1and身高>=185cmand相貌=英俊”其他条件可以忽略不计,这就是“最小分类规则”。“粗糙集”分类规则为“百分之百确定型”分类规则,这是对样本集的统计结果,如果出现非“样本集”中出现过的条件变量属性,将无法得出“粗糙集”,可转而使用概率型“贝叶斯分类”进行计算。4、基于k-means聚类算法概述:给定一个包括n条记录、每条记录有m个属性..的样本集,再给出分类数k,要求将样本集中的记录,按记录间的相似
此文档下载收益归作者所有