3 classification -b

3 classification -b

ID:24839368

大小:230.50 KB

页数:26页

时间:2018-11-16

3 classification -b_第1页
3 classification -b_第2页
3 classification -b_第3页
3 classification -b_第4页
3 classification -b_第5页
资源描述:

《3 classification -b》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘的两种建模形式预测建模描述建模预测建模预测建模的目的则是根据观察到的对象特征值预测它的其他特征值。这里的特征有时也称为变量或属性。描述建模描述建模的实质是对数据进行概括,使我们可以看到数据的最重要特征。预测模型在预测模型中,一个变量被表达成其他变量的函数。可以把预测建模的过程看作是学习一种映射或函数Y=(X;θ)。其中:是模型结构的函数形式θ是中的未知参数。X通常被称为输入变量,是一个p维向量,代表观察到的对象的p个属性值。Y通常被称为响应变量,是一个标量,代表预测的结果。预测模型在函数Y=(X;θ)中:如果Y是数量型变量,那么学习从向量X到Y的映射的过程叫做回归。如果Y是

2、范畴型变量,则叫做分类。从学习一个p维向量X到Y的映射这个角度来讲,分类和回归这两种任务都可以看作是函数逼近(functionapproximation)问题。预测建模的训练数据由n对(X,Y)组成。每对数据中的向量X(i)和目标值Y(i)都是从已知数据中观察得到的(0in)。预测建模就是:根据训练数据拟合出模型Y=(X;θ),该模型可以在给定输入向量X和模型的参数θ的情况下预测出Y的值。预测模型的拟合过程需要完成以下事情:1)确定模型的结构;2)确定参数θ的值。θ值是通过在数据集上最小化(或最大化)一个评分函数来确定的,而搜索最佳θ值的过程就是优化的过程,通常是数据挖掘算法的核

3、心部分。因此,从算法组件的角度出发,模型拟合的过程实际上也就是要确定模型结构、评分函数以及搜索优化策略。用于预测的模型结构由于事先不知道模型(X;θ)的形式,为本身选择一个合适的函数形式本身是非常具有挑战性的。回归模型和分类模型都建立在很多相同的数学和统计基础之上,用于其中一种任务的模型通常也可以应用于另一种任务。用于分类的预测模型判别模型概率模型判别模型判别模型的输入是输入向量X,输出是响应变量Y。Y的取值为{C1,C2,…,Cm},其中Ci表示类别。判别模型例如,当维数p=1时,判别模型实际上是二维空间中的分段直线。在一定的区域内,直线的取值为Ci(0im)。当维数p=2时,判

4、别模型实际上是三维空间中的一个分段曲面。仅当输入变量X的分量X1和分量X2共同构成的平面(X1,X2)位于一定区域时,该曲面的取值为Ci(0im)。取值为Ci的所有区域的联合称为Ci类的决策区域。意思是,只要输入变量X落入这个区域,它的类别就被预测为Ci。在判别模型中,分类的主要任务是要确定各个类别的决策区域或者说,我们所感兴趣的是不同类别之间的边界。和回归的情况类似,可以对类别间边界的函数形式做一个简单的假定。例如,可以用线性边界将X空间分割成不相交的决策区域,每个区域对应一个类别。也可以将线性决策边界分段组合起来决策树的判别模型概率模型分类的概率建模是要针对每一个类别Ci,估计一种

5、分布或密度函数ρ(X

6、Ci,θi),其中θi是该函数的参数,它反映了Ci类的主要特征。概率模型例如,对于多变量的实数值数据,可以假定每个类别的模型结构都是多元正态分布,而且参数θi代表每个类的均值(位置)和方差(范围)特征。如果各个均值离得足够远,而且方差足够小,则各个类在输入空间中可以被很好地分割开来,从而使得分类的准确性最高用于预测的评分函数对于回归,普遍使用的评分函数是误差平方和对于分类,普遍使用的是误分类率用于回归的预测模型线性回归模型非线性回归模型分段线性模型线性回归模型Ŷ=a0+a1X1+a2X2+…+apXpŶ代表的是模型的预测值,而Y代表实际观察到的值。非线性回归模型Ŷ=a

7、0+a1X1+a2X22+a3X33令Z1=X1,Z2=X22,Z3=X33Ŷ=a0+a1Z1+a2Z2+a3Z3分段线性模型另一个对基本的线性回归模型进行推广的方法,就是假定响应变量Y是输入向量X的局部线性函数。该模型在p维空间的不同区域,具有不同的函数形式,这便是分段线性模型。分段线性模型分段线性模型是通过把简单模型分段组合在一起构建起来的相对复杂的模型。这种模型结构的参数既包括各个区域上的局部函数的参数,又包括各个区域的边界。分段线性模型当p=1时,该模型表示由k个不同的线段逼近的一条曲线。不同线段末端可以连接,也可以不连接。因此,曲线可以是连续的,也可以不连续。分段线性模型当p>1

8、时,该模型表示由多个超平面逼近的一个曲面。该曲面可以连续,也可以不连续。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。