基于聚类的主动学习实例选择方法研究

基于聚类的主动学习实例选择方法研究

ID:35069650

大小:3.67 MB

页数:75页

时间:2019-03-17

基于聚类的主动学习实例选择方法研究_第1页
基于聚类的主动学习实例选择方法研究_第2页
基于聚类的主动学习实例选择方法研究_第3页
基于聚类的主动学习实例选择方法研究_第4页
基于聚类的主动学习实例选择方法研究_第5页
资源描述:

《基于聚类的主动学习实例选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于聚类的主动学习实例选择方法研究StudyofClustering-basedInstanceSelectionMethodforActiveLearning作者:陈雄韬导师:闫秋艳副教授中国矿业大学二○一六年五月中图分类号TP301.6学校代码10290UDC密级公开中国矿业大学硕士学位论文基于聚类的主动学习实例选择方法研究StudyofClustering-basedInstanceSelectionMethodforActiveLearning作者陈雄韬导师闫秋艳申请学位工学硕士培养单位计算机学院学科专业计算机应用技术研究方向数据挖掘答辩

2、委员会主席张永平评阅人二○一六年五月论文审阅认定书研究生在规定的学习年限内,按照研究生培养方案的要求,完成了研究生课程的学习,成绩合格;在我的指导下完成本学位论文,经审阅,论文中的观点、数据、表述和结构为我所认同,论文撰写格式符合学校的相关规定,同意将本论文作为学位申请论文送专家评审。导师签字:年月日致谢时光荏苒,三年的硕士研究生生活转瞬即逝,忆及这三年的硕士生活充实而有意义,令人难以忘记。在此论文完成之际,我要向给予我指导、支持、帮助及关心过我的老师、学长、同学和亲人表示衷心的感谢!首先,非常诚挚地感谢我的导师闫秋艳副教授。闫老师对我研究生三年的培养起到了

3、非常关键的作用。研究上,教会我踏实、严谨和创新;生活上,教会我乐观、勇敢和真诚。论文选题到论文的最终完成,都离不开闫老师的悉心指导,对我平时的研究和学习给予了莫大的帮助和关怀,也对我的工作提供了充分的鼓励和支持。感谢矿山数字化研究所的张磊老师、袁冠老师、李政伟老师等,他们在项目开发方面给予我无私的帮助,在此向他们表示诚挚的感谢。感谢实验室的张可为师兄,在项目开发方面给予很大的帮助。感谢实验室汤镇宇、鲍苏宁、宋路杰等其他同学,感谢他们共同创造了一个和谐、温馨的学习环境,也使我少走了很多弯路,在此向他们表示诚挚的敬意和衷心的感谢,祝他们今后事业有成、一帆风顺。感

4、谢我亲爱的父母及家人,感谢他们这些年来在生活和精神上给予我的支持与鼓励,今后无论身在何方,他们都将是我坚强的后盾和前进的动力。本论文虽然几经修改,但由于才疏学浅,疏漏之处在所难免,还望各位老师批评指正,感谢各位专家百忙之中审阅本文和提出宝贵意见!摘要在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记,以达到最小化标记实例的数量获得准确的预测模型。因此,实例选择的策略对于主动学习十分关键。数据流是近年来被广泛关注的一种数据形式,其规模庞大、到达速度快

5、,且数据的分布随时会发生变化,这些与传统数据模型截然不同的特征对主动学习方法提出了巨大的挑战。目前,针对数据流环境的主动学习实例选择策略的研究相对较少,大部分研究工作是针对传统数据形式。在此背景下,本文研究了基于聚类的主动学习实例选择方法:首先设计能够发现任意形状及不同密度的簇的聚类算法对实例进行划分,其次度量出每个簇内预测类的分布一致性,并设计代表性与不确定性相结合的实例选择策略,选择最合适的实例用于主动学习过程,具体内容包括以下两个方面:首先,为了更好地反映数据流环境下实例的实际分布情况,在研究聚类算法的基础上,针对大部分聚类算法无法发现任意形状及不同密

6、度的簇或计算复杂度太高的问题,提出一种两阶段聚类算法。首先对数据集进行快速的初始划分,在此基础上引入距离关联性动态模型,该动态模型能够根据簇中样本点间的距离来近似反映密度,借此将初始划分结果中邻近的且密度近似的簇进行合并,以达到快速发现任意形状及不同密度的簇的效果。实验表明:该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。其次,针对数据流环境下实例空间内均可能发生概念漂移的问题,在本文聚类算法的基础上,提出一种面向数据流的实例选择方法。算法采用批处理的方式,对每个批次中的实例进行聚类划分,并优先选择分类预测最不一致的簇,并从

7、该簇中选择信息量最大的实例,信息量的度量标准将结合实例的代表性与不确定性两个因素。同时,将实例选择的范围覆盖各个簇,以此来发现可能发生的概念漂移。实验结果表明本文提出的实例选择算法在数据流下的分类准确率都优于对比算法,并且本文算法较其它算法具有更好的稳定性。该论文有图24幅,表5个,参考文献96篇。关键词:主动学习;实例选择;数据流;聚类;概念漂移IAbstractInstanceslabelingisanexpensiveandtime-consumingtaskinmachinelearning.Asoneofimportantaspectsinmach

8、inelearning,activelearning

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。