基于图嵌入和维数约减方法的研究

基于图嵌入和维数约减方法的研究

ID:33636840

大小:13.49 MB

页数:92页

时间:2019-02-27

基于图嵌入和维数约减方法的研究_第1页
基于图嵌入和维数约减方法的研究_第2页
基于图嵌入和维数约减方法的研究_第3页
基于图嵌入和维数约减方法的研究_第4页
基于图嵌入和维数约减方法的研究_第5页
资源描述:

《基于图嵌入和维数约减方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人己经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:监签字日期:塑鱼缝鼬日中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制

2、手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。l吲公开作者签名:聊签辄沁签字日期:羔皿监[B3f毯签字日期:蔓Q!塾箜篁坠三!墨一,Ii乳密挝筮摘要在过去十多年间,数据收集和存储能力的显著进步在生物、天文学、统计学和经济学等许多科学领域都引起了“信息过载”的问题。研究者需要面对越来越海量的数据,和已经经过广泛研究的传统小数据集不同,这类数据对数据分析方法提出了新的挑战。幸运的是,很多实际数据集都存在隐含的少量参数控制其主要的分布变化,类似的情况出现在很多不同的研究领域中获取的高维数据中,比如生物信

3、息学、机器人导航和自然语言处理等。这些隐含参数描述了一个低维流形,可以通过记录哪些流形上的点为近邻的图来表示。通过图嵌入,我们便可以获取描述隐含参数的低维坐标,进而揭示出数据潜在的结构,从而使数据探索、可视化和建模的性能更优。围绕这一目标,全文的主要工作概括如下:(1)线性判别分析(1ineardiscriminantanalysis,LDA)在数据挖掘、机器学习和生物信息学等领域是最为常用的有监督特征提取和维数约减工具之一。可是,LDA的计算通常需要求解稠密矩阵对的广义特征分解,计算负担较大,难以应用于大规模数据集。因此,在本文中我们提出瑞利.瑞茨判别分析

4、(Rayleigh.Ritzdiscriminantanalysis,RRDA)用于求解LDA,不同于以往需要将LDA转换为回归问题的相关方法,RRDA建立在求解通用特征值问题的瑞利.瑞茨框架基础上,同时,通过利用LDA问题的特殊结构,我们得以设计出快速的子空间扩展和瑞茨向量扩展策略。为了降低LDA应用中常见的样本不足问题的计算复杂度,我们也为其建立了RRDA的等价快速形式。此外,我们进一步讨论了RRDA的实现细节和收敛结果。在多个真实数据集上的实验结果表明了IU①A的有效性。(2)正则化线性判别分析(regularizedlineardiscriminan

5、tanalysis,RLDA)是用于处理LDA中小样本问题(smallsamplesize,SSS)的维数约减方法。RLDA的一个尚未解决的重要问题是如何快速确定合适的正则参数,而不需诉诸交叉验证等扩展性较差的方法。在本文中,基于RLDA的几何解释,我们提出一种新颖的RLDA参数选择方法。我们进而给出所提出方法的理论分析,证明它对于训练数据特征空间的扰动具有鲁棒性。在多个基准数据集上的实验结果证明了该方法的有效性。(3)蛋白质相互作用网络为理解生物过程、功能和细胞内在复杂演化机制提供了新的渠道。为蛋白质网络建模,找出需要更少的结构假设、对噪音鲁棒和拟合能力更

6、强的网络模型仍然是系统生物学的重要课题。在本文中,我们提出一种基于图嵌入的f-逻辑斯蒂语意嵌入(t-logisticsemanticembedding,卜LSE)模摘要型为蛋白质相互作用网络建模。基于蛋白质网络的几何假设,t-LSE试图自适应地将网络嵌入到低维空间,并使用非凸损失函数降低噪音的影响,实验结果证明相比于其它主流网络模型,t-LSE的拟合能力更强,同时我们所选取的非凸损失函数也显著地提高了对于蛋白质网络噪音的处理能力。由此,我们所提出的模型可以有助于基于图的蛋白质相互作用网络研究,更好地推断出其隐含的生物知识。关键词:基于图的维数约减;图嵌入;线

7、性判别分析;蛋白质相互作用网络ⅡABSTRACTDuringthepastdecades,theadvancesindatacollectionandstoragecapabilitieshavecaused”informationoverload”probleminmanyresearcheareas.Researchersfacelargerandlargerobservationsandsimulationsonadailybasis.Suchdatasets,incontrastwithsmaller,moretraditionaldatasetst

8、hathavebeenstudiedextensiv

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。