最新大数据十大经典算法kNN讲解PPTppt课件.ppt

最新大数据十大经典算法kNN讲解PPTppt课件.ppt

ID:62115100

大小:1.02 MB

页数:41页

时间:2021-04-17

最新大数据十大经典算法kNN讲解PPTppt课件.ppt_第1页
最新大数据十大经典算法kNN讲解PPTppt课件.ppt_第2页
最新大数据十大经典算法kNN讲解PPTppt课件.ppt_第3页
最新大数据十大经典算法kNN讲解PPTppt课件.ppt_第4页
最新大数据十大经典算法kNN讲解PPTppt课件.ppt_第5页
资源描述:

《最新大数据十大经典算法kNN讲解PPTppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据十大经典算法kNN讲解PPTKNN算法怎么来的?KNN算法是怎么来的电影名称打斗次数接吻次数电影类型CaliforniaMan3104RomanceHe’sNotReallyintoDudes2100RomanceBeautifulWoman181RomanceKevinLongblade10110ActionRoboSlayer3000995ActionAmpedII982Action未知1890Unknown猜猜看:最后一行未知电影属于什么类型的电影。KNN算法是怎么来的问题:有一个未知形状X(图中绿色的圆点),如何判断X是什

2、么形状?K-最近邻算法显然,通过上面的例子我们可以明显发现最近邻算法的缺陷——对噪声数据过于敏感,为了解决这个问题,我们可以可以把位置样本周边的多个最近样本计算在内,扩大参与决策的样本量,以避免个别数据直接决定决策结果。由此,我们引进K-最近邻算法。KNN算法是用来干什么的K-最近邻算法是最近邻算法的一个延伸。基本思路是:选择未知样本一定范围内确定个数的K个样本,该K个样本大多数属于某一类型,则未知样本判定为该类型。下面借助图形解释一下。KNN算法的实现步骤算法步骤:step.1---初始化距离为最大值step.2---计算未知样本和每

3、个训练样本的距离diststep.3---得到目前K个最临近样本中的最大距离maxdiststep.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完step.6---统计K个最近邻样本中每个类别出现的次数step.7---选择出现频率最大的类别作为未知样本的类别KNN算法的缺陷观察下面的例子,我们看到,对于位置样本X,通过KNN算法,我们显然可以得到X应属于红点,但对于位置样本Y,通过KNN算法我们似乎得到了Y应属于蓝点的结论,而这个结论

4、直观来看并没有说服力。KNN算法的具体实现由上面的例子可见:该算法在分类时有个重要的不足是,当样本不平衡时,即:一个类的样本容量很大,而其他类样本数量很小时,很有可能导致当输入一个未知样本时,该样本的K个邻居中大数量类的样本占多数。但是这类样本并不接近目标样本,而数量小的这类样本很靠近目标样本。这个时候,我们有理由认为该位置样本属于数量小的样本所属的一类,但是,KNN却不关心这个问题,它只关心哪类样本的数量最多,而不去把距离远近考虑在内,因此,我们可以采用权值的方法来改进。和该样本距离小的邻居权值大,和该样本距离大的邻居权值则相对较小,

5、由此,将距离远近的因素也考虑在内,避免因一个样本过大导致误判的情况。KNN算法的缺陷从算法实现的过程大家可以发现,该算法存两个严重的问题,第一个是需要存储全部的训练样本,第二个是需要进行繁重的距离计算量。对此,提出以下应对策略。KNN算法的改进:分组快速搜索近邻法其基本思想是:将样本集按近邻关系分解成组,给出每组质心的位置,以质心作为代表点,和未知样本计算距离,选出距离最近的一个或若干个组,再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离,故该改进算法可以减少计算量,但并不能减少存储量。KNN算法的改进:压缩近

6、邻算法利用现在的样本集,采取一定的算法产生一个新的样本集,该样本集拥有比原样本集少的多的样本数量,但仍然保持有对未知样本进行分类的能力。基本思路:定义两个存储器,一个用来存放生成的样本集,称为output样本集;另一个用来存放原来的样本集,称为original样本集。1.初始化:output样本集为空集,原样本集存入original样本集,从original样本集中任意选择一个样本移动到output样本集中;2.在original样本集中选择第i个样本,并使用output样本集中的样本对其进行最近邻算法分类,若分类错误,则将该样本移动到

7、output样本集中,若分类正确,不做任何处理;3.重复2步骤,直至遍历完original样本集中的所有样本,output样本集即为压缩后的样本集。通过这种方式也能减少算法的计算量,但仍然无法减少存储量。稍复杂的分数乘法实际问题(一)1、找出单位“1”,说出数量关系。(1)一堆黄沙,已经运走的吨数是总吨数的  。3434总吨数×  =已经运走的吨数复习1、找出单位“1”,说出数量关系。(2)已经看了全书的  。1313全书的页数× =已经看的页数复习1、找出单位“1”,说出数量关系。(3)六(1)班男生占  。23452345全班人数×

8、  =男生的人数复习2、六(1)班有45名同学,其2345中男生占了  。男生有多少人?234545×答:男生有23人。=23(人)分数乘法的实际问题例2岭南小学六年级有45个同学参加学校运动会,其中男运动

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。