惰性学习中实例选择研究与应用

惰性学习中实例选择研究与应用

ID:34198990

大小:1.69 MB

页数:72页

时间:2019-03-04

惰性学习中实例选择研究与应用_第1页
惰性学习中实例选择研究与应用_第2页
惰性学习中实例选择研究与应用_第3页
惰性学习中实例选择研究与应用_第4页
惰性学习中实例选择研究与应用_第5页
资源描述:

《惰性学习中实例选择研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文惰性学习中实例选择研究与应用唐武哈尔滨工业大学2007年7月国内图书分类号:TP301.6国际图书分类号:681.3.06工学硕士学位论文惰性学习中实例选择研究与应用硕士研究生:唐武导师:郭茂祖教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2007年7月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP301.6U.D.C.:681.3.06DissertationfortheMasterDegreeofEngineeringRESEARCHANDAPPLICATION

2、OFINSTANCESELECTIONFORLAZYLEARNINGCandidate:Supervisor:AcademicDegreeAppliedfor:Speciality:Affiliation:DateofDefence:TangWuProf.GuoMaozuMasterofEngineeringComputerScienceandTechnologySchoolofComputerScienceandTechnologyDegree-Conferring-Institution:July,2007HarbinInstituteo

3、fTechnology哈尔滨工业大学工学硕士学位论文摘要惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网络信息处理等领域。然而由于惰性学习在分类查询实例时,需要计算查询实例与所有存储实例的距离,因而存在查询代价大的缺点。为了解决这个问题,在惰性学习诞生后不久,就出现了第一个实例选择算法,直至今天仍不断有新的实例选择算法出现。可见实例选择算法是提高惰性学习性能的重要方法,这同时也反映出现有实例选择算法仍有不足。为此,本文展开了如下研究。首先,进行了实例的特定邻域的分

4、析。本文归纳和总结了一类经典的实例选择算法的共同点:它们都使用一种由实例的最近异类实例限定的特定邻域,并且显式或隐式地用到由这个特定邻域得到的两个同类实例集。可见这个特定邻域和这两个同类实例集在实例选择中有着重要作用。然而这些算法都忽视了限定邻域的最近异类实例在实例选择中的重要作用。本文由此提出了两个新的集合:最近异类实例集和异类实例覆盖集。然后分析了这两个集合在实例选择的作用,由此设计了一种边界实例选择算法(BIS)。最后在二维模拟数据集和UCI数据集上进行了实验,实验结果表明,BIS算法能较大量地约简实例存储量,并在很多数据集上取得较好的分

5、类精度,但是在部分数据集上得到的选择集的分类精度不够理想。这也促使本文从更深层次——实例的分类性能上分析实例选择问题。其次,进行了实例分类性能评价函数的研究。由于经典的算法中没有考虑实例覆盖交叠的情况,对实例的分类性能的评价不够精确,因此本文分析和使用了更精确的相对同类实例覆盖来评价实例在分类同类实例的潜在贡献。同时,由于实例的最近异类实例集和异类实例覆盖集也存在交叠的情况,因此本文分析和定义了相对异类实例覆盖来精确地评价实例在维护分类边界方面的贡献。然后,同时从同类实例的角度和异类实例的角度综合考虑,定义了更精确和全面的实例分类性能评价函数,

6、以此作为设计实例选择算法的基础。再次,进行了实例选择算法的设计。针对直接使用实例分类性能函数进行实例选择时,需要优化分类性能阈值选择的问题,本文设计了一种一致子集的实例选择方式,避开了这个问题。由此设计了基于实例分类性能的一致-I-哈尔滨工业大学工学硕士学位论文子集实例选择算法(IPECSS)。然后,根据IPECSS算法的特点,通过实验系统地分析了IPECSS算法的性能,并在二维模拟数据集和UCI机器学习数据库中的32个数据集上与经典的实例选择算法进行了实验比较。实验结果表明,IPECSS算法能在大幅度约简实例集的存储量的同时,保持着与训练实例

7、集相同或更好分类精度,并较大地提高了分类效率。最后,针对惰性学习在协同过滤中存在的分类效率和分类精度不够理想的问题,本文将IPECSS算法应用到协同过滤系统中,在应用中检验了IPECSS算法的性能。关键词惰性学习;实例选择;分类性能;一致子集-II-哈尔滨工业大学工学硕士学位论文AbstractLazylearningisdistinctfromtraditionaleagerlearning,andithasmanyadvantages,suchaslesstrainingcost,richerhypothesisspace,bettera

8、symptoticlearningability,abilityofsolvingincrementallearningtasks,etc.There

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。