欢迎来到天天文库
浏览记录
ID:24323581
大小:52.00 KB
页数:5页
时间:2018-11-13
《应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基【摘要】目的探索黑斑息肉综合征(PJS)特异性相关基因。方法根据PJS基因谱表达系列,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。结果从PJS患者的特异差异表达基因谱中得到270个已知基因名称的差异表达基因,从聚类结果看,是与“遗传”和“先天缺陷”“肿瘤”“肌肉”“突变”关系密切的基因聚在一起,包括了COL6A2和COL6A3两个基因。结论COL6A2和COL6A3可能是PJS
2、特异性相关基因。【关键词】黑斑息肉综合征微阵列数据挖掘生物信息学 MiningGeneExpressionMicroarrayDataofPeutz JeghersSyndromebyLiteratureProfiling DaiYichen,HuangZhongxi,SongYugang,XieJunpei,ZengethodsPJSmicroarraygeneexpressiondatainedbyliteratureprofiling.Thesearchsfromtheabstractsonthesedifferentexpressiongen
3、esstoredintheMedlineliteraturedatabase.Termsarethenfilteredonthebasisofbothrepetitiveoccurrenceandcooccurrenceamongmultiplegeneentries.Finally,clusteringanalysised.ResultsCOL6A2andCOL6A3ayplayanimportantroleinthepathogenesisofPJSpolyps. Keye;microarray;literatureprofiling;putationa
4、lbiology 我们应用文献轮廓挖掘技术分析PJS基因差异表达情况,揭示参与PJS形成的多个基因的功能关系以及发现特异性的相关基因,进而揭示PJS形成的可能机制。 1材料和方法 11获取差异表达基因把资料完整地入选病例分为大肠腺瘤组、PJS大肠息肉组和正常大肠黏膜对照组。大肠镜检查术中留取的新鲜组织标本液氮冻存备用,按Trizol一步法提取样品组织总RNA,经质量检测后,将各组的RNA样品等量混合,进行反转录荧光标记,用Cy3dUTP标记大肠腺瘤组和大肠PJS息肉组的cDNA,用Cy5dUTP标记正常大肠黏膜组的cDNA。将已标记的样品cDNA探针
5、与深圳微芯生物公司提供的含有8064个人类靶基因的基因表达谱芯片进行杂交,经清洗、扫描仪扫描荧光图像、提取杂交信号,经转换后以数据形式输出,对数据进行标准化处理后用生物信息学软件进行生物信息学分析。以芯片中密度值在5×108以上的数据点为有效数据,同时把比值>2或<0.5的数据点作为存在显著性表达差异基因点的筛选标准,筛选各组间差异表达的基因。根据差异表达基因的筛选标准,选取已知基因名称的差异表达基因。大肠PJS息肉特异性表达变化的基因有270个,其中已知基因259个,EST11个。 1.2获取基因的相关摘要通过检索在PUBMED文献中那些在标题中
6、包含基因的官方名称、缩写或别称的条目来获取基因的相关文献。如果检索到的文献不足5篇,则需进一步扩展到摘要中包含基因名称的条目,甚至用基因家族名称代替基因名称。基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Locuslink的网站上获取。由于相当大量的文献并不遵守官方命名,因此一方面会存在漏检现象,另一方面则出现假阳性。为了避免过高的假阳性,有必要快速浏览搜索结果以便发现并删除不恰当的检索字符串。 1.3文字分析 选择XML的输出格式后,点击工具条的保存按钮就可以将查询结果保存下来。摘要从输出文件中抽取来,并保存在一个新文件中,并且一篇摘要保
7、存一行。用Montreal公司的ProvalisResearch软件的stat模块打开并用“内容分析”的统计方法进行分析。输出选择词的类别百分比。 1.4数据过滤在分析的文献中发现的每一个特定词都赋予一个发生频率值,这样每一个基因都有好几万条记录。 这些词当中大多数要么是普遍存在的(例如,“if”,“because”,“cell”,“identified”在大多数基因的大多数摘要中都出现),要么是极罕见的(只在极少数基因的极少数摘要中出现),因此对于定义基因特异性词的发生轮廓没有多大用处,必须删除。剩下的词则是出现在少数基因的大多数摘要中,从而传递了这些基因
8、的相关信息。数据过滤规则
此文档下载收益归作者所有