模糊聚类技术在甘蔗种植户信息分类中的应用

模糊聚类技术在甘蔗种植户信息分类中的应用

ID:5762946

大小:196.50 KB

页数:13页

时间:2017-12-24

模糊聚类技术在甘蔗种植户信息分类中的应用_第1页
模糊聚类技术在甘蔗种植户信息分类中的应用_第2页
模糊聚类技术在甘蔗种植户信息分类中的应用_第3页
模糊聚类技术在甘蔗种植户信息分类中的应用_第4页
模糊聚类技术在甘蔗种植户信息分类中的应用_第5页
资源描述:

《模糊聚类技术在甘蔗种植户信息分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、成绩:___________管理数学基础课程报告模糊聚类技术在甘蔗种植户信息分类中的应用专业:管理科学与工程学号:3106361姓名:李嘉指导教师:武刚日期:2010年10月25日模糊聚类技术在甘蔗种植户信息分类中的应用李嘉3106361指导教师武刚摘要聚类分析广泛应用在气象预报、地质、医学、农业、林业、网络等方面,而分类的标准及各类之间的界限并不明确,因此通常采用模糊聚类分析方法来进行研究。本文主要介绍了模糊聚类分析方法的方法和原理,包括如何对数据进行标准化、如何确定相似矩阵、如何建立传递闭包和确定最佳阈值。同时,结合了具有不同种

2、植行为特征的甘蔗种植户群组信息,在数据规格化处理的基础上,利用模糊聚类分析,采用欧氏距离方法建立模糊矩阵,利用平方法求解模糊等价矩阵,并按照一定的聚类水平进行模糊聚类,得到不同种植行为特征的甘蔗种植户的分类。这有助于在今后研究信息推送中对林产品信息和用户信息进行分析,从而提高推送的准确率。关键词:模糊聚类,模糊聚类分析,数据标准化,模糊等价矩阵目录1选题背景与意义12模糊聚类分析的原理与方法12.1模糊相似矩阵和模糊等价矩阵12.2模糊聚类分析步骤13应用实例33.1实例简述43.2数据标准化43.3确定模糊相似矩阵53.4确定模糊

3、等价矩阵63.5聚类分析74结论8参考文献1091选题背景与意义在日常生活中,我们经常要对人和事物进行分类,简单的分类很容易实现,但是稍微复杂一点的分类就会产生混乱。在信息爆炸、数据堆积的当代,除了从大量信息中找到自己需要的信息外,对信息的分类也是一件重要的事情。聚类是根据一定的规则,按照事物某些属性,合理划分未分类事物的集合,得到确定事物分类的过程。通过聚类得到事物类,同一类中的事物之间具有较高的相似度或相关度。随着计算机技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类。由于现实的分类过程往往伴随着模糊性,所以用模糊数学

4、的方法来进行聚类分析会显得更自然、更符合客观实际。在作者所研究的信息推送领域中,聚类分析更是有着重要的作用。本文结合了用户信息分析的实例,说明在信息推送实现过程中,需要对产品信息和用户信息分别进行聚类分析,将相似的用户分为一类,以便在推送中将信息更准确的推送给用户。2模糊聚类分析的原理与方法2.1模糊相似矩阵和模糊等价矩阵在进行模糊聚类分析中,需要用到两种十分重要的矩阵,这决定了聚类分析的结果。分别是模糊相似矩阵和模糊等价矩阵。因此在介绍模糊聚类分析之前先对与模糊聚类分析密切相关的这两种模糊矩阵进行简单定义[1]。模糊相似矩阵:设给

5、定U上的一个模糊矩阵R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性;rij=rji,(i,j=1,2…,n),则称R=(rij)n×n是一个模糊相似矩阵。模糊等价矩阵:设给定U上的一个模糊关系R=(rij)n×n,如果它满足:①自反性:rij=1;②对称性:rij=rji,(i,j=1,2…,n);③传递性:R·RR,则称R=(rij)n×n是一个模糊等价矩阵。2.2模糊聚类分析步骤(1)选定模糊聚类分析的统计指标,就是选定数据集。(2)将统计指标的数据标准化,便于比较和分析。在标准化时主要有两种方法:平移标准

6、差变化、平移极差变换[2]。其中平移极差变换可以把标准化的数据压缩到[0,1]闭区间。①平移标准差变换9(1)其中i=1,2,…,n;k=1,2,…,m,;②平移极差变换(2)其中k=1,2,…,m。(3)建立模糊相似矩阵R,主要确定其相似系数rij,即:xi与xj的相似程度,从而确定模糊相似矩阵。求相似系数rij的方法很多,现仅罗列其中常用的几种[1]:①欧式距离法(3)其中xik为第i个点,第k个因子的值,xjk为第j个点,第k个因子的值②夹角余弦法(4)③相关系数法(5)其中,,④算数平均最小法9(6)⑤几何平均最小法(7)本

7、文采用欧式距离法,利用公式(3)先求得距离矩阵D,再用公式(8)其中c为距离矩阵D的最大值。求得模糊相似矩阵R。(4)若模糊相似矩阵R为模糊等价关系,则可进行模糊聚类分析。否则要对R进行改造,使其成为模糊等价关系。(5)建立传递闭包。由于模糊相似矩阵不满足传递性,因此采用平方法计算传递闭包,具体方法是将R自乘得R·R=R2,再自乘得R2·R2=R4,然后再得R8,R16,……如此继续下去至某一步出现为止,则便是一个模糊等价矩阵t(R)。(6)λ称为置信水平或阈值,当λ取不同值可以得到不同的分类结果。确定最佳阈值λ的方法有2种:①根据

8、实际需要和经验确定阈值λ,②用F统计量确定阈值λ,其公式为(9)其中,为总体样品的中心向量,r为对应λ值的分类数,第j类的样品数为nj,第j类的样品即为,,…,,第j类的聚类中心向量,其中为第k个特征的平均值,F值最大时所对应的λ为最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。