欢迎来到天天文库
浏览记录
ID:33143032
大小:2.21 MB
页数:63页
时间:2019-02-21
《共享显露序列模式挖掘算法及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代号:学号:密级:10532S11102009普通湖南大学硕士学位论文共享显露序列模式挖掘算法及其应用兰僮生遣厶娃刍!王昌昱垣姓名丞驱趁!匿湘洼副熬援墙差墼僮!信:丛型堂皇王猩堂瞳童些刍整;让篡扭型堂皇控盔诠塞握童旦期12Q!垒生三月!垒旦迨塞簦塑旦塑;2Q!垒生三旦2窆日签避重虽会圭虚!登矗篮熬援lIIIIIIIIIIIIIIIIIlY2604451SharedEmergingSequencesMiningAlgorithmandApplicationsWANGJingB.E.(HunanUniversityofScienceandTechnology)2011Athesissubmit
2、tedinpartialsatisfactionoftheRequirementsforthedegreeofMasterofScienceComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorAssociateProfessorCHENXianglaoMay,2014湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在
3、文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:可知日期:沙2够年多月/_/步FI学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于l、保密口,在——年解密后适用本授权书。2、不保密“(请在以上相应方框内打“√”)作者签名:矽知翩躲耐橱翰日期:砂7垆年石月彩日日期:2口仰年6月缈日共享显露序列模式挖掘算法及其应用摘要显露序
4、列(EmergingSequences,ESs)旨在发现数据库中在一个类中频繁,在另一个类中非频繁的模式,其具有很好的分类性能。由于以往的关于ESs的研究通常仅涉及单个数据集,本文提出一种新的ESs——共享显露序列模式(SharedEmergingSequences,SESs),它表示由两个或多个数据集所共享的ESs,能够表征数据集间的一些共同特性,在迁移学习和类推等领域有很大的应用潜力。本文主要对SESs的挖掘算法及应用进行一系列研究,主要工作和贡献如下:(1)针对SESs的挖掘问题,提出一种SESs的挖掘框架。在挖掘框架中,采用共享广义后缀树(SharedGeneralizedSuffix
5、.tree,SharedGS.Tree)进行数据存储。该树具有能在一棵树上同时挖掘多个数据集和多个类的ESs的特点,可以简化挖掘过程、降低挖掘空间复杂度及提高运行时问效率。在此基础上,提出一种基于SharedGS.Tree的SESs挖掘算法。算法采用深度优先搜索策略获得每个数据集的ESs,再通过相似性匹配产生最终的SESs。为了提高算法性能,采用三种剪枝策略,包括:建树长度阈值剪枝、最大前缀非频繁剪枝、相似匹配长度差剪枝。实验结果表明,SESs挖掘算法结合三种剪枝策略,取得了较好的时间性能。(2)SESs能够实现相似领域问知识的迁移,但如何评价两数据集之间的相似性?为此,本文提出一种利用聚合S
6、ESs来衡量数据集相似性的算法。该算法先给出SESs质量的定义,接着综合考虑SESs的质量和数量来计算SESs在数据集中的贡献度,最后通过量化的贡献值来评价数据集的相似性。实验结果表明,基于聚合SESs的数据集相似性度量策略是行之有效的。因此当某数据集训练样本缺乏时,可先通过聚合SESs来选取与之相似的数据集作为辅助数据集,进而帮助进行分类。(3)如何避免负迁移的产生一直是一个需要研究的问题。负迁移的发生与领域问相似性存在很大的关联,而SESs可用于衡量数据集问的相似性,因此可用SESs来初步分析数据集间的负迁移。当目标数据集为一新的己知类标签很少的数据集时,可以考虑使用SESs来进行协同分类
7、,且实验结果表明协同分类能够提高分类的准确性。关键词:数据挖掘;显露序列;共享显露序列;共享知识结构;相似性衡量硕士学位论文AbstractEmergingsequences(ESs)aimsatdiscoveringsequencesthatarefrequentinsequencesofonegroupbutlessfrequentinsequencesofanotherinthedataba
此文档下载收益归作者所有