面向差异特征识别的稀疏矩阵分解方法的研究.pdf

面向差异特征识别的稀疏矩阵分解方法的研究.pdf

ID:50160119

大小:5.00 MB

页数:53页

时间:2020-03-08

面向差异特征识别的稀疏矩阵分解方法的研究.pdf_第1页
面向差异特征识别的稀疏矩阵分解方法的研究.pdf_第2页
面向差异特征识别的稀疏矩阵分解方法的研究.pdf_第3页
面向差异特征识别的稀疏矩阵分解方法的研究.pdf_第4页
面向差异特征识别的稀疏矩阵分解方法的研究.pdf_第5页
资源描述:

《面向差异特征识别的稀疏矩阵分解方法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、"气:''诗泉弦蕊於心旅,:六為衣梦典滲资班娩;乂..、‘‘、-'一‘;、'’:,方\,技辦迂雌摘,兴:^二?A密级、片索取号::__墜―.一?公开‘;:共,,祭;;成"、心,;.;■'、、‘二.,於-KV在-、!'VV.T,咬‘龄v/户'‘"‘、-‘^?.、端-每、义繁據巧雜y户夸;—'边>:.管:萬蠻擊省做金斗觀町.知六必著觀戦r::^.获攀寶、%教?巧魏.、硕±学论文.i、.、接,,;|嘴说麟炸S:L.fe,"八?喊蘇巧巧'r挤泌<^‘胖^壤:.思曹職身P^.鄉.瑚:-:.結'r.豬剩饼作緣參r游11|議|面向差昇轉征识别的稀

2、疏矩耗分艇1\每-巧法的研究.巧苦一教—?I、、-:,户—於L;,:*.r:::Jr帶茲给,批苗户髮導.、養訟巧心:攀霸養輯雜訂义霖:t研巧生’壬冬.’八.新、其^凉V,V少\苗V心挺赫‘於处辦户^指导缉卿攫刘金星副教授1I擊議'|人V終^、、I麵麵戀麵培养单接幫:信息科学站程学院'v々^.’’、、'、"鱗’,:'、产W ̄…’■洽兴W起.:'.产’r*-;:'皆U护VVV.'//.w*V;听^-4雜海;诚/级評弘信息与通信工程;圓議瞧寨:'二通:级与息系统:学亂信信屯睾-、‘:/l,嚇净lBIS、苗‘、"—..社完成.20化410时间:

3、年曰月苗二...\.]、‘、、r心氣、皆:心:201661年月日.答辩时间,::.-;iJP儀兹产琴巧y?、、'丢'W‘,,三::.'介:^'巧、.,;鳥L■''.品、‘變?藝’'?論'、".二'、^’.尸,.、、‘、;i,一-'TW:;<\/j1iKUH0C苗摘要摘要随着高通量测序技术的进步和发展,生物信息数据呈现爆炸式增长。从海量的基因组数据和遗传变异数据中找到有用信息成为巨大挑战。传统的数据分析方法已经远远不能满足实际需要,稀疏矩阵分解理论作为数据挖掘技术能够很好地处理大规模数据,进一步从基因组数据中识别出关键特征基因,为生命科学更好地认识生命以及

4、疾病治疗提供了有效的方法。本文通过分析国内外研究学者对稀疏矩阵分解理论和特征基因识别算法方面的综合研究成果,发现现有的理论成果存在部分学术研究上的缺乏。因此,在以往研究成果的基础上,通过对稀疏矩阵分解算法和非负矩阵分解(Non-negativeMatrixFactorization,NMF)进行深入研究,将差异特征提取作为重点研究方向,分别提出了三种新的差异特征识别算法。主要包括基于L21,范数的非负矩阵分解算法,基于流形学习的非负矩阵分解算法和分块稀疏约束的非负矩阵分解算法。基于L21,范数的非负矩阵分解方法根据数据含有异常值和噪声等特点,将L21,范数约束分别施加在误差函数以及正则项上,产

5、生鲁棒性和稀疏性结果。基于鲁棒性图正则的非负矩阵分解算法通过构建图正则来保存原始矩阵中的数据点的分布结构,可以有效地识别特征基因。分块稀疏约束的非负矩阵分解算法则是根据处理癌症数据和肿瘤基因图谱(TheCancerGenomeAtlas,TCGA)的特点,将不同性质的数据采用不同的稀疏约束强度,使结果更容易理解和解释。为了验证这三种算法的性能,本文在基因表达数据集和整合数据集上进行实验,并同现有的方法相比较。实验结果证明了本文中所提出的算法在处理数据上是切实可行的。本文的创新点之一在于通过L21,范数来产生稀疏以及鲁棒性结果,提出一种新的鲁棒性且稀疏性的非负矩阵分解算法(NMFL21,)来识别

6、特征基因。同时将NMFL21,成功应用在基因表达数据分析中;创新点之二是基于L21,范数和流形学习算法,提出鲁棒性图正则算法(RGNMF)来识别特征基因;创新点三是提出一种分块稀疏约束的非负矩阵分解算法(BSNMFL21,),并成功应用在整合数据集上。关键词:稀疏矩阵分解,特征基因,L21,范数,分块稀疏约束,流形学习IAbstractAbstractWiththeprogressanddevelopmentofhigh-throughputsequencingtechnologies,biologicalinformationmanifestsanexplosivegrowth.Ithasb

7、roughtthehugechallengesforpeopletofindusefulinformationfromvastamountsofgenomicdataandgeneticvariationinthedata.Thetraditionaldataanalysismethodcannotsatisfiestheneedsoftherealityresearch,whilethespar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。