欢迎来到天天文库
浏览记录
ID:37071235
大小:710.86 KB
页数:70页
时间:2019-05-16
《不完备数据FCM聚类和离群点检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:密级:1UDC:编号:1理学硕士学位论文不完备数据FCM聚类和离群点检测方法研究硕士研究生:许荣雪指导教师:邓廷权教授学科、专业:应用数学论文主审人:张晓威教授哈尔滨工程大学2018年3月分类号:密级:1UDC:编号:1理学硕士学位论文不完备数据FCM聚类和离群点检测方法研究硕士研究生:许荣雪指导教师:邓廷权学位级别:理学硕士学科、专业:应用数学所在单位:理学院论文提交日期:2018年1月论文答辩日期:2018年3月学位授予单位:哈尔滨工程大学ClassifiedIndex:U.D.C:ADissertationfortheDeg
2、reeofM.ScienceResearchonIncompleteDataFCMClusteringandOutlierDetectionCandidate:XuRongxueSupervisor:Prof.DengTingquanAcademicDegreeAppliedfor:MasterofScienceSpecialty:AppliedMathematicsDateofSubmission:Jan.2018DateofOralExamination:Mar.2018University:HarbinEngineeringUniv
3、ersity哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学
4、有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):导师(签字):日期:年月日年月日不完备数据FCM聚类和离群点检测方法研究摘要随着科学技术的迅猛发展,各行各业
5、产生的数据量越来越大,对海量数据进行分析处理获得有用的模式和对未知数据进行预测都成为各界关注的热点。模糊C均值聚类(FCM)是一种经典的聚类方法,尽管FCM及其改进的方法已被广泛地应用于很多领域,但在处理不完备数据聚类问题和类不平衡数据的离群点检测问题时仍存在很多不足。现有的不完备数据聚类方法主要有两种。一种是对数据集聚类之前直接去掉含缺失值的数据对象。该方法减少了数据量,但破坏了数据的结构和完整性。另一种是利用部分距离计算数据对象间距离。该距离仅考虑了已知属性值间的差异性。如果两个数据对象对应属性值其中之一未知,则其部分距离与两个相同数
6、据对象(无缺失值)间的距离相等。显然,这种处理方法不能获得准确的聚类结果。本文在FCM聚类方法的基础上,通过构造不完备数据的邻域模型,提出了不完备数据聚类方法。为了解决类不平衡数据的离群点检测问题,提出了一种新的基于聚类的离群点检测方法。具体研究内容如下。针对模糊C均值聚类方法不能很好地处理含有缺失值的不完备数据聚类问题,本文通过构造一种有效的缺失数据邻域信息模型,并将其与优化完整聚类方法相结合构造了一种新的聚类目标函数,提出了一种基于邻域信息的不完备数据模糊C均值聚类方法(NFCM)。该方法将缺失值作为额外变量,运用拉格朗日乘数法,通过
7、三层交替迭代方法,在估计缺失值的同时对数据进行聚类。将NFCM方法与四种常用的不完备数据聚类方法在三个UCI数据集上进行对比实验。实验结果表明,NFCM方法不仅能有效地预测缺失值,还大大提高了不完备数据的聚类效果。针对基于聚类的离群点检测方法对类不平衡数据无法准确检测离群点的问题,本文通过将类信息和类分散度引入到邻域模糊C均值聚类中,构造了一种处理类不平衡数据的聚类方法。该方法不仅考虑了类内数据对象分布不均匀问题,而且还能有效地解决类不平衡数据聚类问题。将数据对象及其邻域点的所属隶属值融入到局部离群点检测方法中,提出了一种基于分散度模糊C
8、均值聚类的离群点检测方法(OCWFCM)。该方法给数据集中每个数据对象一个局部离群得分度量,按照topN原则,将离群得分最大的前N个数据对象作为离群点。将OCWFCM方法与常用的离群点检测方法
此文档下载收益归作者所有