基于粗糙集理论的混合数据挖掘方法研究

基于粗糙集理论的混合数据挖掘方法研究

ID:33563416

大小:9.29 MB

页数:120页

时间:2019-02-27

基于粗糙集理论的混合数据挖掘方法研究_第1页
基于粗糙集理论的混合数据挖掘方法研究_第2页
基于粗糙集理论的混合数据挖掘方法研究_第3页
基于粗糙集理论的混合数据挖掘方法研究_第4页
基于粗糙集理论的混合数据挖掘方法研究_第5页
资源描述:

《基于粗糙集理论的混合数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据国内图书分类号:0153.1,TP391国际图书分类号:512年姓西南交通大学研究生学位论文级2009申请学位级别盟±专业让簋扭型堂皇垫苤指导老师塞壹云麴援密级:公开万方数据ClassifiedIndex:0153.1,TP391U.D.C:512SouthwestJiaotongUniversityDoctorDegreeDissertationMixedDataMiningMethodsBasedonRoughSetsTheoryGrade:2009Candidate:HuaZhaoAcademicDegreeAppliedfor:Ph

2、DSpeciality:ComputerScienceandTechnologySupervisor:KeyunQinMarch.16,2014万方数据西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1。保密口,在年解密后适用本授权书;2。不保密√使用本授权书。(请在以上方框内打“、/”

3、)学位论文作者签名:癣日期:≯~.多g指导刻隧轹霖芝疡日期:砂晔、罗,尸万方数据西南交通大学博士学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:1.针对不完备信息系统提出了基于邻域.容差关系的粗糙集模型、基于变精度容差关系的粗糙集模型和基于变精度邻域.容差关系的粗糙集模型,讨论了模型的基本性质

4、,并基于邻域.容差信息熵提出了一种特征选择算法。(第2章)2.研究了样本选择和基于样本的分类方法。在变精度容差类的基础上,构建了一种文本选择方法。基于邻域粗糙集,提出了一种可以处理混合数据的样本选择方法。另外,提出了可以处理混合数据的原型加权分类方法。(第3章)3.研究了不平衡分类问题,提出了基于邻域粗糙集的合成少数样本的过采样方法。(第4章)4.基于邻域信息粒的概念,提出了一种可以处理混合数据的异常值检测算法。(第5章)学位论文作者签名:掷日期:步/铲2占万方数据西南交通大学博士研究生学位论文第1页摘要在许多实际应用领域,需要处理的数据大部分是混

5、合类型的。最常见的混合类型的数据是混合了数值型属性和符号型属性的数据。如何针对混合属性数据进行数据挖掘已经成为一个极富挑战性的问题。本文主要基于粗糙集理论对混合数据挖掘方法展开研究。研究内容包括不完备信息系统中对象的相似性刻画方法、混合数据的特征选择与样本选择、混合数据的不平衡分类方法与异常值检测方法。主要取得了以下四个方面的研究成果:第一部分,基于已有的不完备信息系统粗糙集扩展模型,进一步研究了不完备信息系统中对象之间的相似关系刻画方法,提出了邻域一容差粗糙集模型、变精度容差粗糙集模型和变精度邻域.容差粗糙集模型并讨论了相关性质。其中,邻域.容差

6、粗糙集模型和变精度邻域.容差粗糙集模型可以处理混合数据。另外,给出了邻域.容差关系下信息熵及条件熵的概念。并利用邻域.容差条件熵构建了一种特征选择算法。第二部分,研究了样本选择方法及基于样本的分类方法。首先提出了一种文本选择方法。这个方法用变精度容差关系来度量文本的相似度,并用变精度容差类作为文本聚类。通过只遍历一次文本集得到所有的文本聚类,而且这些文本聚类用聚类中心来表示。这样大大减少了文本的数量,可以进一步地指导文本分类。其次,基于邻域粗糙集,提出了混合数据的样本选择算法。在这个方法中,邻域决策类中的样本代表内部样本而被全部删除。通过邻域条件概

7、率将决策边界域中的样本继续划分成噪声、靠近分类边界的样本和远离分类边界的样本。最后仅将靠近分类的边界样本放入选择样本集中。最后,提出了原型加权分类方法。这个方法先通过自产生原型算法把整个样本集划分成若干的样本子集,并用这些子集的均值作为原型点,再根据样本子集的大小给这些原型点赋予权重。然后根据原型点距离公式计算测试样本与每一类原型的距离,最后把测试样本归入距离最近的样本类中。第三部分,研究了不平衡分类问题。为了缓解SVM的分类超平面在不平衡分类中的偏置,提出了基于邻域粗糙集的合成少数类样本的过采样算法(NRS.SMOTE)。这个方法主要的特点有:1

8、)使用欠采样技术清理噪声;2)不是合成全部的少数类样本而是只合成在分类边界的少数类样本,其中分类边界样本用邻域粗糙集中的决

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。