数据挖掘考题new

数据挖掘考题new

ID:38748735

大小:54.50 KB

页数:5页

时间:2019-06-18

数据挖掘考题new_第1页
数据挖掘考题new_第2页
数据挖掘考题new_第3页
数据挖掘考题new_第4页
数据挖掘考题new_第5页
资源描述:

《数据挖掘考题new》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、曹达23220101153239一、分析题1.如何改进kmeans算法中的k的选取问题?聚类数的确定没有个确切方法。K值可以先用系统聚类法,看谱系图然后得出大致分几类。然后试多几个k值,确定个最好的。使用遗传算法是解决K均值中K的选取一个比较可行的方法。K均值聚类算法把n个向量Xj(j=1,2,…,n)分成K个类(k=1,2,…,k),每类的所有样本形成一组,求每组的聚类中心,使得非相似性(或距离)指标的价值函数(或目标函数)达到最小。K均值聚类算法中重要的一步是初始聚类中心的选择,聚类的性能与初始聚类中心的选择有关

2、系,一般选择待聚类样本集的前K个样本作为初始聚类中心。这样使得聚类的结果与样本的位置有极大的相关性。为了减少这种相关性,使用“伪随机数”的方法,生成一个存有随机数的数组。总以数组的前K个随机数值对应的样本为初始聚类中心。这种方法不但减少了相关性问题,也解决了使用随机数作为初始聚类中心造成的相同K值聚类效果不稳定的问题。2.请描述EM算法的原理和技术。在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依

3、赖于无法观测的隐藏变量(LatentVariabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在E步上找到的最大似然的期望值从而计算参数的最大似然估计。M步上找到的参数然后用于另外一个E步计算,这个过程不断交替进行。用表示能够观察到的不完整的变量值,用表示无法观察到的变量值,这样和一起组成了完整的数据。可能是实

4、际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型(MixtureModel)中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。让代表矢量定义的参数的全部数据的概率分布(连续情况下)或者概率集聚函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:3.试分析回归和分类的区别。分类(classification)是这样的过程:它找出描述并区分数据类或概念的模型(或函数)

5、,以便能够使用模型预测类标记未知的对象类。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。二者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。4.决策树算法有哪些种类和改进?决策树有以下几种经典算法:ID3(IterativeD

6、ichotomizer3)算法。ID3是一种经典的决策树算法,它从根节点开始,根节点被赋予一个最好的属性.随后对该属性的每个取值都生成相应的分支,在每个分支上又生成新的节点.对于最好的属性的选择标准,ID3采用基于信息熵定义的信息增益来选择内节点的测试属性,熵(Entro—py)刻画了任意样本集的纯度.C4.5算法。C4.5算法是ID3的改进,其中属性的选择依据同ID3.它对于实值变量的处理与下节论述的CART(ClassificationAndRegressionTrees)算法一致,采用多重分支.C4.5算法能实

7、现基于规则的剪枝.因为算法生成的每个叶子都和一条规则相关联,这个规则可以从树的根节点直到叶节点的路径上以逻辑合取式的形式读出.CART算法。决策树的分类过程就是把训练集划分为越来越小的子集的过程.理想的结果是决策树的叶子节点的样本都有同类标记.如果是这样,显然决策树的分支应该停止了,因为所有的类别己经被分开了.但是,一般情况下,很难一步就达到目标,所以,如果不止一步才能结束的话,这个分类的过程就是一个递归树的生长过程,CART是仅有的一种通用的树生长算法。改进:对任何数量的训练集,总是能找到相应的多个线性判别函数把它

8、分类,但是这样生成的树的深度可能太大.因为,虽然使用了最好的特征进行分类,但还是可能存在一些特征对分类很有用,尽管不是像最好的特征那样有用,却没有用到.一个直觉是:有些特征对某些类别有效,但是对另外一些则无效,甚至可能有副作用,如果能把这些特征选择出来,一次就能最大限度地把多个类别分开.MBDT正是基于这个直觉.MBDT通过在每个子集上选择最能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。