大家好呀!今天和大家分享一篇今年3月底发表在FrontiersinEndocrinology(IF:3.)的文章,文章通过挖掘GEO数据库中有关特纳综合征的数据集,经分析差异表达基因,功能分析,构建PPI网络以及识别核心模块等生信手段,发现了可能的特纳氏综合征致病基因。下面给大家详细讲一下吧。
标题:BioinformaticAnalysisIdentifiesPotentialKeyGenesinthePathogenesisofTurnerSyndrome生物信息学分析确定特纳综合征发病的潜在关键基因一.文章背景
特纳综合征(Turnersyndrome,TS)是一种在女性中存在的性染色体非整倍性的遗传病,患者的性染色体只有一条父源或母源的X染色体,核型为45X;患者具有多种症状,包括身材矮小,卵巢衰竭和骨骼异常等。TS的病因很复杂,而且其致病机理尚不清楚。作者希望通过分析GSE这个比较TS患者和正常女性外周血单核细胞基因表达差异的数据集,去揭示可能的TS致病基因,探究其发病机制。
二.文章思路三.结果解析1.筛选差异表达基因作者利用GEO数据库中的GEO2R分析工具对GSE数据集(外周血单核细胞芯片数据集)进行分析。分组为:
Xm-XX:16TS患者(X染色体母系遗传)VS10正常女性
Xp-XX:10父系遗传TS患者(X染色体父系遗传)VS10正常女性
利用GEO2R工具寻找两组中的DEG(差异表达基因),筛选标准是
logFC1
,adjp0.05,并取交集。最后得到表达上调的DEG60个,表达下调的DEG25个(C)。A-B两图分别Xm-XX组和Xp-XX组中的DEG在样本中表达情况的热图。此外,作者选择了一些共同存在于TS患者中的DEG,对其作用和表达情况做了简要描述。图1.筛选差异表达基因2.在特定组织中表达的DEG作者在BioGPS数据库中分析了上述85个DEGs在不同组织器官中的表达情况,并选取在特定组织中有最高表达的基因。标准如下:
基因在特定组织中的表达量要为在所有组织中的表达量的中位数的10倍以上
基因的第二高表达水平不到最高表达水平的三分之一
根据以上标准对85个DEGs分别进行了分析,得到的在特定组织器官中高表达的基因如下表。
表1.在某一特定组织器官中高表达的基因
3.对DEGs进行功能分析和通路分析
这里作者利用DAVID数据库对上文得到的85个DEGs进行了functionalcategories分析以及GO和KEGG通路分析,下图展示了DEGs富集最显著的11个功能通路(p0.05)。
图2.对DEGs的功能分析结果
4.构建PPI网络
先利用STRING数据库预测这85个DEGs间的相互作用关系(参数选择:互作分数0.4),之后利用Cytoscape对PPI(蛋白质相互作用)网络进行可视化(A),这个网络有42个结点和49条边(红色表示在TS中表达上调的DEGs,绿色表示在TS中表达下调的DEGs)。随后利用ClusterOne应用去分析PPI网络中的核心PPI网络模块(B-C)。
图3.蛋白质相互作用网络
5.识别可能的TS致病基因
通过分析DEGs中在X染色体上的基因,作者发现AP1S2,CSF2RA,CD99这三个基因与免疫系统相关。作者认为结果4中8个PPI网络核心模块基因与TS的发生有关,且CDC27和CD99这两个基因在造血/免疫系统中高表达(结果3)。通过Genecards数据库的分析,作者也在DEGs中找到一些与TS发生相关的基因。最后作者将这些基因汇总成表2
表2.可能的TS致病基因以及表达情况
好啦,今天的文献分享就到这里了,我们快速总结一下。本篇文章是一篇挖掘GEO数据库中TS患者数据的套路文章。在获取GSE的表达矩阵后进行差异分析得到共85个DEGs,紧接着就是利用DAVID数据库进行功能富集分析,STRING数据库获取PPI网络并用Cytoscape可视化也不可少,并用ClusterOne分析了核心模块。
以上便是主干,枝叶便是从BioGPS数据库得到了这些DEGs中在特定组织高表达的基因。结合以上和Genecards中关于TS的信息,作者综合分析得到了可能的TS致病基因。其实相同的方法不限于TS,大家也可以去GEO数据库中找找别的遗传病或其它疾病的信息去做类似分析。后台回复:4j,获取原文链接。
往期推荐
多点好看,少点脱发
预览时标签不可点收录于话题#个上一篇下一篇