欢迎来到天天文库
浏览记录
ID:27714544
大小:224.50 KB
页数:6页
时间:2018-12-05
《数据挖掘在茶叶鉴定中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、安徽农业科学,JournalofAnhuiAgri.Sci.2012,40(2):1219-1220责任编辑俞洁责任校对李岩数据挖掘在茶叶鉴定中的应用张超1,张娅玲*,杨如艳((云南农业大学基础与信息工程学院,云南昆明 650201)摘要介绍了数据挖掘的一般过程和常用技术,总结了数据挖掘在茶叶鉴定中的应用现状,并对数据挖掘方法的选择和存在的问题进行了简单的讨论。关键词数据挖掘;茶叶;鉴定;应用中图分类号S114文献标识码+A文章编号0517-6611(2012)02-01219-02Application
2、ofDataMiningintheIdentificationofTeaZHANGChaoetal(CollegeofBasicScienceandInformationEngineering,YunnanAgriculturalUniversity,Kunming,Yunnan650201) AbstractThegeneralcourseandusualtechnologyofdataminingwereintroduced, cationofteawassummarized,andthentheap
3、plicationstatusofdataminingintheidentifi-andthechoiceofdataminingmethodsandproblemswerebrieflydiscussed.KeywordsDatamining;Tea;Identification;Application我国茶叶历史源远流长,距今已有2000多年。多年来,集,提高挖掘的效率。人们运用感官评审、理化检测等手段对茶叶的品质进行鉴1.1.2数据挖掘。根据数据挖掘的任务和目的以及业务对别。面对大量的检测数据,如何
4、进行有效的分析,挖掘数据象,选择合适的挖掘技术,如关联规则、聚类分析、神经网络、背后有用的信息,提供具有识别性、预测性的知识和规律已。遗传算法等对数据进行挖掘成为茶叶鉴定中需要解决的问题。数据挖掘作为一种重要1.1.3解释与评估。在此过程中,一方面需要对数据挖掘的数据处理和知识发现技术,能够从检测数据中发现有价值过程的效率进行评价;另一方面评估数据挖掘的结果是否满的信息,为茶叶鉴定提供了一种有效的技术手段足用户要求,如果不满足则重新选择数据或数据挖掘算法,。1数据挖掘技术如果满足则针对业务对象,运用相关领
5、域的知识和经验对结随着信息技术的高速发展,人们积累的数据量急剧增 果进行解释,并将得到的知识集成到业务信息系统中或提交长。数据挖掘是为顺应这种需要而发展起来的数据处理技给决策者。术,是从存放在数据库、数据仓库或其他信息库中的大量数 1.2常用的数据挖掘技术[]1据挖掘有趣知识的过程。1.2.1聚类分析。聚类是针对未知的数据由聚类学习算法1.1数据挖掘的一般过程数据挖掘的一般过程包括数据 把数据归到一类或簇的无监督学习过程。聚类根据最大化处理、数据挖掘、结果的解释与评估,如图1所示类内的相似性、最小化类间的
6、相似性的原则进行聚类,即在。一个聚类中的对象有很高的相似性,而与其他聚类的对象很不相似。常用的聚类算法有层次方法、基于密度方法、划分[]1方法、基于模型方法和基于网格方法。1.2.2人工神经网络。人工神经网络是一种模拟人的形象思维,通过神经元之间的相互连接,进行分布式并行协同处理的数学模型,其拓扑结构包括输入层、隐藏层和输出层。在人工神经网络模型中,BP模型的学习过程结合了正向传 图1数据挖掘的一般过程播和反向传播,是目前应用较多的一种学习算法。BP算法 1.1.1数据预处理。现实世界中的数据常包含一些噪
7、音和在完成了一次正向传播的处理过程后,如果实际输出与期望 干扰数据,通过数据清理、数据集成和变换、数据归约等技术可改进数据的质量,从而提高数据挖掘的精度和性能。数[]1输出误差较大,误差从输出层到第一个隐藏层,按误差梯度下降的方式修正各层权值通过不断地重复正向传播和反。据清理的目的是通过全局常量填充平均值填充等方法对缺、向传播过程直到对整个训练样本集的误差达到要求,失值进行处理并运用分箱聚类回归等技术尽可能地消除,、、。遗传算法遗传算法是结合了生物自然进化规律的1.2.4决策树。决策树算法按数据的属性值将
8、其有目的的分类,其最大优点是可理解性、比较直观;缺点是处理复杂性数据时,分支数较多,管理难度很大。其常用算法有ID3、C4.5等[]2[]2。1.2.3。噪声数据集成和变换的任务是将多个数据源中与挖掘业务;自适应全局的概率搜索算法由繁殖交叉变异个基本算,、、3相关的数据集成到一个数据存储中并通过平滑聚集泛化,、、子组成该算法擅长于数据聚类通过时间上的类比和空间,。等方法将数据变换为适合挖掘的形式;数据归约通过降维、上的类比可以
此文档下载收益归作者所有