大数据挖掘中的数据分类算法技术研究.pdf

大数据挖掘中的数据分类算法技术研究.pdf

ID:57923070

大小:101.11 KB

页数:1页

时间:2020-04-12

大数据挖掘中的数据分类算法技术研究.pdf_第1页
资源描述:

《大数据挖掘中的数据分类算法技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据库技术·DataBaseTechnique大数据挖掘中的数据分类算法技术研究文/饶琛当优秀的可扩展性,为处理大数据提供了基础2.3MIND和GAC-RDB算法分类算法随着信息技术和计算机产业条件。但是SLIQ算法也存在一些缺点,由于的不断发展,数据的处理成为了它是以C4.5算法为基础的,因此在进行数据在大数据挖掘的背景下,未来数据分类当务之急。想好做好数据的处理算法的发展方向应当是以数据库技术为基础的处理时,仍需要将数据集保留在内存中,这就工作,就要应用到数据的分类算的分类算法。尽管很久之前就已经有一些专门导致SLIQ算

2、法的可处理数据集的大小受到了法,它作为数据挖掘中的关键技研究数据库的人员发现并提出了基于数据库技术,能够很好地将完成数据处理限制。即数据记录的长度一旦超过了排序的预工作。本文通过比较几种不同的定长度,SLIQ算法就很难完成数据处理和排术的分类算法,但是并没有得到实际运用。因数据分类算法,从中找到其异同为在进行数据挖掘和数据分析的时候,很难将序的工作。点,为进一步推广数据分类算法其与数据库的系统集成,目前来说,MIND和(2)SPRINT算法是为了解决SLIQ算打好基础。GAC—RDB算法还能够较好地解决这个问题。法中数据集大

3、小受到内存限制的问题而开发出2-3.1MIND算法来的。SPRINT算法重新定义了决策树算法的MIND算法与决策树算法有些相似,都数据分析结构,改变了传统算法将数据集停【关键词】数据挖掘数据分类算法是通过构造数据分类器来进行数据分析。但留在内存中的做法。值得一提的是,它没有像SLIQ算法那样讲数据列表存储在内存当中,是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,而是将其融合到了每个数据集的属性列表中,在当前的时代背景下,很多的行业都引UDF方法能够大大缩短对每个节点的数据特这样既避免了数

4、据查询时重复扫描造成的速度入了大数据挖掘的理念,这既给计算机产业带缓慢,又释放了内存的压力。特别是在进行大性进行分析的时间,这样就在为数据库的集成来了发展机遇,也带来了挑战。因为想要做好提供了理论基础。SQL语句是通过对数据集数据挖掘时,由于数据的基数过大,在每个数大数据挖掘的相关工作,就一定要掌握数据分据集的属性列表内寻找所需数据能够大大节省的属性进行分析,以便从中选择出最合适的分类算法,而数据分类算法可称得上是数据挖掘裂属性,然后给数据排序,这样就节省了数据分析的时间,对数据进行分类的工作也变得更中的一道难关。随着数据分

5、析的研究不断深入,加便捷。但是SPRIT算法同样存在一些缺点,分类的时间。但是MIND算法还不能直接在人们开发了多种多样的分类算法,用以不断减数据库系统中实现查询功能,更重要的是,该对于不具有可分裂属性的数据列表,由于它只轻其难度。通常都是以数据分类器为基准,进算法的维护成本过高,不利于普及。能在数据集内进行分析,结果可能不是十分准行相应的数据分类,包括决策树类、Bayes类、2l3.2GAR.RDB算法确,导致其拓展性受到了限制。基于关联规则类以及利用数据库技术类,本文GAR—RDB算法在MIND算法的基础上进将对它们进行

6、简单的阐述。2其他分类算法行了更多的改进,能够充分利用数据库系统进1决策树分类算法2-ayes分类算法行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的1.1传统算法Bayes分类算法是利用概率统计学而开发优点,同时可拓展性也比较出色。更重要的是,出来的一种算法,在目前数据分类中应用比较它可以充分利用数据库提供的查询功能,从而C4.5算法作为传统的数据分类算法,有广泛但是其缺点也比较明显,由于Bayes分避免了重复扫描数据集的现象,缩短了分析的着很明显的优点,如规则简单易懂,实际操作类算法需要

7、在分析之前对数据的特性做出一定时间,节约了系统资源。只要在自动确定参数易于上手。但是随着计算机的不断普及,数据的假设,而这种假设往往缺少实际数据的理论取值的技术上进行一些改进,该算法就能很好的规模变的越来越庞大,其复杂程度也是日渐支持,因此在数据分析过程中就很难做到准确地胜任大数据挖掘的数据处理工作。增长。C4.5已经逐渐无法满足新时期的数据有效。在此之上,TAN算法又被开发出来,分类处理工作了。并且由于决策树分类算法的3总结它是为了提高Bayes分类算法的假设命题的准规则,决定了在数据分类的过程中,要对数据确率,也就是降低

8、了NB任意属性之间独立的大数据挖掘是时代发展的潮流,因此数进行多次重复的扫描和排序。特别是在构造树假设。据分类算法的重要性也将随着显现通过分析的时候,这种缺点更加明显。这不仅会影响数2.2CBA分类数据算法几种不同的算法,能够在数据分析速度、可扩据分析的速度,也浪费了更多的系统资源。对展性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。