基因数据相似性分析方法研究

基因数据相似性分析方法研究

ID:32968666

大小:11.74 MB

页数:138页

时间:2019-02-18

基因数据相似性分析方法研究_第1页
基因数据相似性分析方法研究_第2页
基因数据相似性分析方法研究_第3页
基因数据相似性分析方法研究_第4页
基因数据相似性分析方法研究_第5页
资源描述:

《基因数据相似性分析方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖南大学博士学位论文基因数据相似性分析方法研究姓名:骆嘉伟申请学位级别:博士专业:计算机应用技术指导教师:李仁发20080104基因数据相似性分析方法研究摘要随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的庞大的分子序列数据,对这些序列数据进行科学的分析和处理推动了生物信息学的发展。寄列相似性分析是生物信息学的基础,通过相似性分析获得的大量序列信息可以用来推断基因的结构、功能和进化关系,因此基因数据的相似性分析方法研究已成为生物信息学领域中一个非常重要的研究课题。论文在综述基因数据表示以及相似性分析方法研究现状的基础上,对聚类分析方法、窿列相似度度量方法、基因数据的空

2、闻表示和基于空闻表示的相似性分析方法进行了系统研究。本文取得的研究成果主要有:1.提出了~种基于多维伪F统计量的基因表达动态聚类分析方法。该算法可动态遣调整聚类个数,根据多维伪F统计量获得最佳聚类数日,实验结果表明该算法聚类质量较爵。针对基因微阵列数据缺失僮严重影响聚类结果,本文利用模糊C.均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C.均值的填充算法FCMimpute,实验结果表明,FCMimpute填充在处理缺失值问题上是可行的、有效的,并且其填充性能表现戈为优越。2.提出了一种基于比对相似度动态矩阵的聚类算法。在DNA基因序

3、列方面,本文研究分析了基予图BAG聚类算法,给出了一种cutoff初始值、最小长度阀值和分割/合并类的确定方法,提出基于比对相似度动态矩阵的聚类算法。实验结栗表明该算法具有较好的聚类正确率。3。提出一种基于双重核苷酸出现频率的序列相似度度量方法。针对大量DNA多序列比对计算复杂问题,给出了DNA序列的相邻双重核苷的分类,通过序列的数字特征描述序列,给出了一种基于双重核苷酸出现频率的序列相似度度量方法,霹有效地表示序列的相似度,且计算简单。4.提出了一种DNA序列图形表示,定义了一个序列特征参数,给出了可凝聚层次聚类的进化树构建算法。针对DNA序列的图形表示存在退化现象,本文提出一种3D盏线

4、表示法—N蓝线,证鹈了N麓线中不存在环和退亿现象,且符合DNA序列的对称性:定义了一个薪的序列特征参数Z伽v,该特征参数计算简单且非常接近于特征值九;根据DNA序列三维图形表示,提出一种基于可凝聚层次聚类的进化树构建算法,实验结果表明了该算法的有效性。5.提出了RNA二级结构的2D、3D、4D空间表示方法,对RNA二级结构进行ll博士举位论文了稽似性分概。赞对RN轰二级结稳表示法中主要鹣离复杂性帮邋纯瓣题,本文提出了歉NA二级结构的2矜、3猃、4D空阕表示方法,并证明了该表示法的有效性,采用矩阵不变量对RNA二级结构进行了相似性分析,避过不同物种的RNA二缀结构的褶儆性7相异性院较实验,表

5、鞲了该方法的有效健。S。提窭了一种蛋蠹矮序判蟾鑫D表示,定义了~耱蛋鑫质组盼指戳性度量方法。根据氨基酸的分类提搬蛋蠡矮序列煞S维表示方法,并获褥了一些数值特征,绘磁了蛋皇质序捌的特征构造方法,并檄据提取的特征参数定义蛋自康组的相似性度量方法并构建系统发育树,与现有的构建进纯树方法不网的是,该方法不需簧多穿列魄对,实验结采表饔了该方法的有效性。关键词:相似性分析;聚类分析;空闻表示;进纯瓣;DNA痒捌;㈧杰蓐硼;鬣囱矮序列;蛋白成维越lAbs譬l-建c它Wit囊lhelau薹熏ehof薹垂聪f矬a娃(≥巷薹lQl娃eP£《ee专,as雠l

6、asV基fio毽ss鼍udieso数biologie

7、algenesequ嚣觳ce,魏gfowing觳ulnbefoflnol嚣cul£哺sequ。狂e端d£ItahaVebe参魏pfod毽cod.T

8、撵seie建£i蠡oan露lysis魏ndl嗣eessingOntheseque飘c嚣data量laspfoInot移d氇嚣莲evelop擞e贰of器i◇i簸糖糯激ies+Se罐ue赣eesi嫩il戳i重y鼗蠢alys据isl蠡ebasi嚣ofbioi投孙rl矬aties,an纛theseque藏e棼i觳蠹。烈髓a耋io矬蠹ol矬sil稳ilafitya懿疆lysisea矬be娃sedt◇deducethegenes毫ruc毫ure,如娃cti

9、onandev】olu重io薹lrelalions,乏her嚣萎Drelhe薹譬seaf霉ho鼗嚣致耩

10、辩i】c穗

11、ln。氇od镑fge飘e疆藤asil疑ilafi专yhasbeeomeaVefyi稚lpoft£L娃tstudyinthe蠡el莲◇fBioi魏勤f擞采ies,O稳攮eb躺isof鑫su瓣擞盛ryOf攮ege鼗ep氇t鼍e黻缫dthec毯}煺鼗耄辩sea羚矗。鼗鼗nali量i站all矬etbOdofs妇赣i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。