基于数据库关于蛋白质家族和折叠子统计推断

基于数据库关于蛋白质家族和折叠子统计推断

ID:34599551

大小:1.65 MB

页数:44页

时间:2019-03-08

基于数据库关于蛋白质家族和折叠子统计推断_第1页
基于数据库关于蛋白质家族和折叠子统计推断_第2页
基于数据库关于蛋白质家族和折叠子统计推断_第3页
基于数据库关于蛋白质家族和折叠子统计推断_第4页
基于数据库关于蛋白质家族和折叠子统计推断_第5页
资源描述:

《基于数据库关于蛋白质家族和折叠子统计推断》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、』Nan.jingUniversityofAeronauticsandAs的nauticsTheGraduateSchoolCollegeofScienceStatisticalInferenceforProteinFamiliesandFoldsBasedonDatabaseAThesisinprobabilitytheoryandmathematicalstatisticsbyLvB0AdvisedbyPro凫ssorLiuXinShengSubmittedinPartialFulfillmentoftheRequirements

2、fortheDegreeofMasterofScienceDecember,2009●■●\·承诺书本人声明所呈交的博士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)作者签名:黾整日期:童骂丝旦.●◆■●

3、■南京航空航天大学硕士学位论文摘要关于蛋白质家族、结构和新功能的统计推断是应用数理统计的一个前沿交叉研究方向。本文以蛋白质结构分类数据库SCOP和序列分类数据库Pfam为基础,研究有关蛋白质家族和折叠子的统计推断问题。首先,在第二章中我们利用两类不同数据库之间的映射,分别研究了包含于不同类折叠子中的蛋白质家族规模的分布,这些家族包括蛋白质序列分类数据库Pfam中的家族、蛋白质结构分类数据库SCOP中的家族以及由SCOP家族映射后得的相应Pfam家族。并由此得出了蛋白质家族规模分布与包含它们的折叠子的规模无关,均服从相似的幂率。同时推断

4、出SCOP家族空间是Pfam家族空间的一个随机样本的结论。其次,在第二章结论的基础上,结合SCOP数据库的动态信息,我们估计出覆盖当前Pfam数据库所需的折叠子总数;通过SCOP中新增家族在Pfam中的对应家族所属的折叠子是否已知为先验信息构建贝叶斯模型,估计了不同规模的Pfam家族贡献新折叠子的概率分布。最后,我们利用SCOP最新版本1.73中观察到的折叠子规模的分布,依据最大概率原则和矩法估计原理重新估计了自然界中折叠子规模的分布,并在此基础上重新估计了自然界中蛋白质折叠子的总数。关键词:蛋白质,数据库,蛋白质家族,折叠子,规模分

5、布,统计推断基于数据库的关于蛋白质家族和折叠子的统计推断AbstractThestatisticalinferencefortheproteinfamilies,structuresandnewfunctionsiSafrontierresearchfieldintheappliedstatistics.BasedontheSCOP(StructuralClassificationofProteinsdatabase)andPfarn(SequenceClassificationdatabase),thethesisdiscusses

6、thestatisticalinferencesOilproteinfamiliesandfolds.Atfirst,byusingthemappingbetweentwokindsofdatabases,inChapter2westudythesizedistributionsofproteinfamilies(SDPFs)belongingtodifferentkindsoffoldsseparately.ThethreekindsofproteinfamiliesarePfamfamilies,SCOPfamiliesandth

7、ePfamfamiliesmappedbytheSCOPfamilies.Ourresultsshowthattheproteinfamilies’sizesandtheirdistributionsareindependentonthesizesoffoldswhichcovertheseproteinfamilies,andthesizedistributionsofproteinfamilieswithindifferenttypesoffoldsallobeysimilarpower-law.Ourmodelsalsosugg

8、estthatthewholeSCOPfamiliesconstitutearandomsamplefromthePfamfamilydatabase.BasedontheresultsobtainedinChapter

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。