数据分析--分析方法

数据分析--分析方法

ID:43876193

大小:249.50 KB

页数:17页

时间:2019-10-16

数据分析--分析方法_第1页
数据分析--分析方法_第2页
数据分析--分析方法_第3页
数据分析--分析方法_第4页
数据分析--分析方法_第5页
资源描述:

《数据分析--分析方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、描述性统计各种分析方法数据分析工具.方法及方法论分类m法(神经财堵决第忸等)JK癸U法(K-Means.Twostep)关联分析(Apriori)ffiX(时何序列、绞网堵)税合、播值、參数估计各颊论那去线性规纵决数规创.多元规划等櫻砸灭、神经网奴遗传闫法尊逻辑回归分析什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。这一家族屮的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就

2、是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poisson分布,就是Poisson回归;如果是负二项分布,就是负二项回归。Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。Logistic回归的主要用途:寻找危险因素:寻找某一疾病的危险因素等;预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。Logi

3、stic冋归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发牛的概率,等等。例如,想探讨胃癌发牛的危险因素,可以选择两组人群,一纠•是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。LogisticRegression的具体过程,包括:选取预测函数,求解Cost函数和J(9),梯度下降法求J(0)的最小值,以及递归下降过程的向量化(vectorization)o基本原理L

4、ogisticRegression和LinearRegression的原理是相似的,按照我自己的理解,可以简单的描述为这样的过程:(1)找一个合适的预测函数(AndrewNg的公开课屮称为hypothesis(假设)),一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程时非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)Z间的偏差,可以是二者Z间的差(h・y)或者是其他的形式。综合考虑所有训练

5、数据的“损失”,将Cost求和或者求平均,记为J(())函数,表示所有训练数据预测值与实际类别的偏差。(3)显然,J(8)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(e)函数的最小值。找函数的最小值有不同的方法,LogisticRegression实现时有的是梯度卜•降法(GradientDescent)。具体过程(1)构造预测函数Logistic回归虽然名字里带〃冋归〃,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:g⑵=-—-

6、1+eSigmoid函数是一个取值在0和1Z间的S型曲线,如下图所示:下面左图是一个线性的决策边界,右图是非线性的决策边界。对于线性边界的情况,边界形式如下:q+时,+仇兀=工6>x.=eTx/=l构造预测函数为:^M=g(Orx)=函数九(X)的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:P(y=llx;0)=^(x)P(y=O

7、x;0)=1-為⑴(2)构造Cost函数Cost函数和J函数如下,它们是基于最大似然估计推导得到的。Cost(h0{x),y)=•log(方’Jr))ify=l」og(l讥(x))ify=0J3)=

8、丄£Cost(h0a),x)=-丄rt工必io劝〃(兀)+(i-必)陀(i-爲(兀))1=1(3)梯度下降法求J(e)的最小值求j(e)的最小值可以使用梯度下降法,根据梯度下降法可得e的更新过程:1加m/S

9、事实上,采用梯度上升法和梯度下降法是完全一样的,这也是《机器学习实战》中采用梯度上升法的原因。(4)梯度下降过程向量化《机器学习实战》中给出的实现代码确是实现了vectorization的,图所示代码的32行中weights(也就是8)的更新只用了一行代码,直接通过矩阵或者向量计算更新,没有用for循环,说明确实实现了ve

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。