欢迎来到天天文库
浏览记录
ID:59194556
大小:18.26 KB
页数:4页
时间:2020-09-10
《数据挖掘整理.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1.什么是过拟合,泛化性,分析两者的区别和联系?过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。即使用过多的主成分建立模型,降低了预测能力。泛化能力:经过训练的网络(有限样本)对于不是样本集的输入(其他变量域)的预测能力。也指神经网络对新鲜样本的适应能力,该性质称为泛化能力.过拟合会导致模型的泛化性变弱。2.特征选择和特征提取有何区别两者都是提取有效信息、压缩特征空间的方法。特征提取(extraction):用映射(或变换)的方法把原始特征变换为较少的新特征。特征选择(selection):从原始特征中挑选出一些最有代表性,分类性能最好的特征3.分析
2、回归和分类的区别分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。4.LDA和FISHERLDA,以及两者的区别Fisher线性判别的基本原理如下,对于线性判别函数y(x)=ao+alXl+⋯+adXd=aTx+ao(1)可以将d维矢量a=(a1,a2,⋯,ad)T视作特征空间中的以a1,a2,⋯,ad为分量的一个矢量,则aTx表示矢量X在以a为方向的轴上投影的
3、
4、a
5、
6、倍.我们希望所求的a使投影后同类样本相距较近,即同类样本密集;
7、不同类样本相距较远.FLD就是求解,满足类间离散度和总类内离散度之比最大的投影方向,然后在一维空间中确定判决规则.Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):y(x)=∑Cjxj然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,
8、这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。LDA和FLD在统计中都是用来寻找特征的某种线性组合,该组合变量可以作为分类的依据,也可以用于数据集的将维处理,为进一步的分类作准备。LDA与方差分析ANOVA及回归分析都是用其他特征或测量值的线性组合来表达一个因变量。不同的是,LDA中涉及的因变量是“分类变量”(如类标号),而后两者都是指具体的数值。LDA、主元分析和因子分析都致力于用变量的线性组合来解释数据。但是LDA更侧重于对不同类数据之间的差别进行建模,而PCA却没有考虑类之间的区别,
9、相比于相似性来说,因子分析考虑更多的是类间区别。判据分析和因子分析有一点是明显不同的:独立变量和因变量必须严格区分。LDA在处理类属变量时可以由DiscriminantCorrespondenceAnalysis来替代。5.有监督学习,无监督学习和半监督学习的区别和联系有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记无监督的学习:无训练样本,仅根据测试样本在特征空间的分布情况来进行标记。半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。他们的
10、联系在于都是在解决类别归属的问题,即给定一些数据,判断每条数据属于哪些类,或者和其他哪些数据属于同一类等等,而有无监督的区别在于“有无标记的数据”。1.论述如何将聚类用于数据预处理和特征选择数据预处理:通过聚类分析检测孤立点,去除噪声。特征选择:将聚类算法应用于特征空间中,对特征进行聚类。比如说采用分层聚类的方法,先使得每一维特征各成一类,然后合并相似度最大的两类,来减少类别数目。2.数据挖掘的完整流程是什么?数据挖掘(Datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息
11、和知识的过程,它是用模式识别、统计学、数学等方法过滤存储在数据库中大量的数据来发现新的、有意义的关系、模式和趋势的过程。完整流程如下:广义:1、理解应用和目标;2、得到研究用的数据集(通常来自数据仓库);3、数据清洗和预处理;4、数据降维和投影;5、选择数据挖掘任务;6、选择数据挖掘算法;7、用算法完成任务;8、解释结果,如果需要重复步骤1-7;9、配置:集成进运作的系统。狭义:4、数据降维和投影;5、选择数据挖掘任务;6、选择数据挖掘算法;7、用算法完成任务;8、解释结果。3.请描述EM算法的原理和技术?期望最大化算法是在概率模型中寻找参数最大似然估计或者
12、最大后验估计的算法,其中概率模型依赖于无法观测的隐藏
此文档下载收益归作者所有