基于聚类方法的数据挖掘在人口信息系统中的研究和应用

基于聚类方法的数据挖掘在人口信息系统中的研究和应用

ID:32974973

大小:1.89 MB

页数:68页

时间:2019-02-18

基于聚类方法的数据挖掘在人口信息系统中的研究和应用_第1页
基于聚类方法的数据挖掘在人口信息系统中的研究和应用_第2页
基于聚类方法的数据挖掘在人口信息系统中的研究和应用_第3页
基于聚类方法的数据挖掘在人口信息系统中的研究和应用_第4页
基于聚类方法的数据挖掘在人口信息系统中的研究和应用_第5页
资源描述:

《基于聚类方法的数据挖掘在人口信息系统中的研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学硕士学位论文基于聚类方法的数据挖掘在人口信息系统中的研究和应用姓名:陈壮申请学位级别:硕士专业:软件工程指导教师:陈根才20060606基于聚类方法的数据挖掘在人口信息系统中的研究和应用摘要大家知道我国人口众多,而人口的信息又涉及到方方面面,导致各种原始数据大量积累,同时人口数据分析工具又跟不上需求的发展,这被有的人描述为胖数据,瘦信息。如何从众多的人口数据提取出有用的信息,帮助我们做出有用的判断和决策,就成为当今一个热门话题。目前,浙江省人口信息中心正在对浙江省人口数据进行数据采样和数据分析。其中数据分析部分可以分为数据

2、挖掘和联机分析处理。由于常用的数据挖掘软件往往缺乏对于人口数据分析的专业性,所以就有必要制作一套专门用于人口数据分析的数据挖掘工具。这个用于人口数据分析的挖掘工具是用JAvA语言进行开发的,所以它的名字称为JMiner。JMiner有两个主要的亮点。其一,通过加权平均的方式得到簇的中心位置,兼顾了挖掘速度和挖掘准确度;其二,充分考虑了人口数据的特殊性,做到了对人口数据分析的专业性。聚类方法是常用的数据挖掘方法之一,JMiner实现并且改进了聚类方法中划分的算法。经典的划分算法可以分为K中心方法和K平均方法。K中心方法可以避免异常点

3、对于聚类结果的影响,但是如果要选出簇中的最靠近中心的那个点,有较高的复杂度。K平均方法,通过计算簇中的所有点的各个域的算术平均值来获得簇中心,计算量比较小,但是异常组的存在会对聚类结果产生比较大的影响。由于在人口统计中,通常会把相同的数据分组以后再进行分析,所以即使异常点(即异常分组)存在,那么异常点所在的那个组的记录数是非常小的。而本人正是利用这一点,将每个组的记录数看成这个组的权重。这样在聚类的过程中,就不是简单的算术平均找中心位置,而是通过加权的方法找中心位置。这样即避免了K中心算法中找中心点的复杂计算,又避免了K平均算法中

4、异常点可能带来的巨大误差。所以挖掘速度和准确度同时兼顾可以说是本系统的一个亮点。另外,在距离计算的过程中,充分考虑到人口数据的特殊性。譬如,在月份计算中,将十二个月构成循环链表的形式。这样1月和12月的中心就在12月底到1月初,而不是6,7月份。对于人口数据分析的专业性可谓是本系统的第二个亮点。总之,JMiner比常用的数据挖掘工具更加适合于人口数据。基于聚类方法的数据挖掘在人口信息系统中的研究和应用关键字:聚类方法分类方法簇K中心K平均数据仓库划分方法AbStractTbbehonest,也epopulationofOurcou

5、mryistoolarge,、vhiletheinfb珊ationofoncpersonisbecominglarger鼬dlargeLLotsofrawdatahasbeenacc岫ulated,mean、vhiletlletoolofdataajlalyzingcannotmeettherequirement.SomeonecaUit‘richdata,poorinfo吼ation’.Asaresult,howtoeject吐leusefulmfomlationinordertomakepowerfuldecisionbeco

6、meshot.Cun_ently,thePopulationInfoHnationCemerofZheJiangProv血ceisgatheringaIldaIlalyzingthedataofZheJiangProvince.Thela_terpartcatlbedividedirlto帆oaspects,dataminmgandonline籼lyzingprocess.Asfhasnow,thecOmmondataminingtoolisshortof廿lespecialtyofthepopulationdata.Asares

7、un,weshoulddeVelopanewtoolforthepopulationda饥Therearetwohighlightintllissystem.First,throughwei曲t-averagewaytocalculatethecenterofeveryclusterin岛itcoVersbot}lcalculatingspeedandcOrrection.Second,Ⅱ1rOughaddingsomepopulationinfbmationknowledge,itismorespecial’C1ustering

8、isoneofmemostpopularwaysindataminin昏herewerealizeda11dmodi丘edthepanitioningme虹lodwhichisabranchinclustering.Thereare咖classic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。