基于lgc算法的代价敏感分类方法研究

基于lgc算法的代价敏感分类方法研究

ID:32715122

大小:3.13 MB

页数:48页

时间:2019-02-15

基于lgc算法的代价敏感分类方法研究_第1页
基于lgc算法的代价敏感分类方法研究_第2页
基于lgc算法的代价敏感分类方法研究_第3页
基于lgc算法的代价敏感分类方法研究_第4页
基于lgc算法的代价敏感分类方法研究_第5页
资源描述:

《基于lgc算法的代价敏感分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据大连理工大学专业学位硕士学位论文的图,图上的结点表示数据样本,带有权值的边表示样本之间的关系,权值越大,样本的相似性越高(也有方法将较小的权值较小描述为样本间的距离越短,表示相似性越高)。基于图的半监督分类器(GraphbasedSemi.SupervisedClassifiers,GSSC)为无标签数据分配标签的过程,就是在图上进行标签传递的过程。Budyytis等人在【lo】中提出的标签传递(LabelPropagation,LP)算法,能够根据样本之间的相似性以及图的拓扑结构计算出标签数据的传递概率,结合结点的出度进行图上的标签传递。Zhu等人在【11】中提出利用高斯

2、场与调和函数的方法,将离散的预测函数松弛为对连续值的预测,充分考虑样本的传递概率,在k连接图上进行标签传递。Zhou等人在【12】中提出了局部与全局一致性方法(LocalandGlobalConsistency,LGC),引入聚类假设,利用局部与全局的一致性条件进行图上的标签传递,并给出了严谨的数理逻辑推导,证明了算法的收敛性。然而,在以上这些相关工作中,并没有考虑分类代价不一致的问题。代价敏感的学习方法是解决代价不一致问题的有效手段,它引入代价矩阵描述类别的代价不一致性,目的在于分类结果的全局代价最小。Qin等人在【13】中为把半监督分类算法和代价敏感的学习方法结合起来做了尝试,

3、将错分类代价引入概率评估过程,从而改进了经典的EM算法。AdaCost[14J方法是在AdaBoost[15J方法的基础上提出来的,引入了代价函数,用代价分布表示样本的分类代价,强制分类器更加关注高代价样本,在代价敏感的分类问题中表现出了一定的优势。然而,新引入的代价性能函数没有经过理论分析的验证,使得算法不再收敛于贝叶斯决策。除此之外,许多学者通过对已有的算法的改进或者对数据的更新过程进行控制,使得算法具有代价敏感特性,这些在代价敏感学习方法的分类研究中将会详细进行介绍。1.4论文结构在这篇文章中,我们基于AdaBoost思想为经典的半监督分类算法叫.GC算法引入代价敏感特性,提

4、出代价敏感的LGC方法(Cost-SensitiveLGC,CS.LGC)。CS.LGC算法是一个Boosting的过程,每次迭代都用LGC算法训练半监督分类器,并根据分类器表现更新标签数据集合,同时充分利用半监督分类问题中无标签数据多的优势,采用Rescale思想更新标签矩阵,最后通过加权投票的方式得到全局分类器。在此基础上,进一步分析了在不平衡数据集中,CS.LGC算法可能带来的缺陷,提出了优化的CSS.LGC算法。CSS.LGC算法通过优化CS.LGC算法Rescal的过程,在更新标签矩阵的过程中提出平均相似度的概念,结合SMOTE算法的思想,克服了由不平衡数据的潜在的错误累

5、加问题,导致的性能不稳定的缺陷。最后研究讨论了实验中阈值选取的合理性。论文的主要结构如下:万方数据基于LGC算法的代价敏感分类方法研究(1)第一章,绪论,1.1、1.2介绍了本文的研究背景、意义,1.3简单的介绍了研究现状,最后1.4介绍了论文的主要结构。(2)第二章,半监督学习综述,主要介绍了半监督学习的相关概念和问题。2.1简单介绍了半监督学习依赖的三种假设,2.2简单介绍了半监督学习的几种分类,2.3重点介绍了基于图的半监督分类,2.4介绍无标签数据的意义,2.5为本章小结。(3)第三章,代价敏感的分类方法研究,主要研究了代价敏感的分类方法,并为其做了新的划分。3.1、3.2

6、介绍了代价敏感分类方法的基本概念和代价类型,并重点分析了错误分类的代价。3.3研究分析了代价敏感方法的分类思想,并详细分析了每种分类中的典型代表算法的优点和缺点。(4)第四章,CS.LGC算法设计,主要介绍了CS.LGC算法的提出,算法流程和实验验证算法的有效性。首先4.1介绍了下相关的概念,4.2介绍了局部与全局一致性算法,并分析了局部与全局一致性算法的不足。4.3提出了代价敏感的局部与全局一致性算法,并详细介绍了算法的实现流程,并证明了算法的收敛性和分析了算法的时间复杂度。4.4通过数据集GermanCreditDataSet和数据集BreastCancerDataSet证明了

7、算法的有效性。(5)第五章,CSS—LGC算法设计,主要介绍了CS.LGC算法的缺陷,提出了CSS.LGC算法,算法的设计流程和实验验证有效性,并通过数据集上的实验,研究讨论了实验中阈值选取韵合理性。5.1分析了CS.LGC算法存在的问题,5.2介绍了不平衡数据分类和SMOTE算法,5.3针对不平衡数据集对CS.LGC算法的影响,引入了SMOTE算法对CS。LGC算法进行改进。进一步,详细地介绍了改进后的CSS.LGC算法的流程,并分析了CSS.LGC算法的时间复杂度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。