又双叒叕一篇10分+的生信文章出现啦,就在今年1月份,”Anintegratedmulti-omicsapproachtoidentifyregulatorymechanismsincancermetastaticprocesses”在线发表在“GenomeBiology”杂志上,IF:10.。快来看看人家是怎么做到的。通讯作者是著名梅奥医学中心的SaurabhSinha教授。首先让我们通过摘要了解下这篇文章的主要内容:转移进展是大多数癌症死亡的主要原因,然而驱动转移所必需的细胞变化的调控动力学仍然知之甚少。多组学方法为解决这一挑战带来了巨大的希望;然而,目前的分析工具在系统地整合转录、表观基因组和周期信息以准确定义对转移至关重要的调控网络方面的能力有限。为了解决这一局限,作者使用结肠癌(CRC)侵袭性细胞模型来获得多组学数据,包括表达、可及性和特定的组蛋白修饰图谱,以提高侵袭性水平。然后,作者采用严格的概率框架,从所产生的异质数据以及转录因子结合图谱中进行联合推断。干扰高排位转录因子Jund(AP-1复合蛋白)的表达,证实了与结肠癌细胞迁移和侵袭有关的功能。转录图谱证实了Jund的关键调控靶点,从该模型得出的基因signature在TCGA结直肠癌数据中显示出强大的预后潜力。作者的工作为推动结肠癌转移的复杂分子过程提供了新的线索,并提出了一种统计上可靠的综合方法来分析动态生物过程的多组学特征。一、材料与方法1.传代细胞系为了选择侵袭性亚群,SW细胞在无血清培养基中饥饿16h,然后用0.05%胰蛋白酶从培养板表面解离。将个细胞接种于涂有基质生长因子还原基膜基质的8.0-μm通透性跨孔支架中,置于含有10%牛血清白蛋白作为趋化剂的6孔板中。等待24小时,用胰蛋白酶从载体底面获取侵袭细胞,不断重复。2.敲低Jund的表达慢病毒质粒与包装载体psPAX2和pMD2.G用Mirus共转染HEKT/C17细胞。转染后48h收集含病毒培养液,用0.45mSteriflipFilter清除潜在细胞。将含病毒的培养液与聚乙烯胺混合进行转导。用MAB抗体检测Jund的表达。3.转录组测序(RNA-seq)用Direct-zolRNAKit提取总RNA。为了评估亲本SW细胞和选定的侵袭系,制备了TruSeq文库,并在MayoClinicMedicalGenomeFacility的IlluminaHiSeq上进行了成对的bp测序。对于与Jund基因敲除相关的研究,在明尼苏达大学基因组中心使用PEFlow细胞在IlluminaNovoSeq上制备了TruSeq链mRNA文库并进行了测序。4.ChIP-seq使用Bowtie2将ChIP-seq数据分析序列与人类基因组(Hg19)进行比对。使用MACS2执行H3K27ac、H3K4me1和H3K4me3信号的峰值调用。SICER用于调用H3K27me3数据的峰值。所有峰值呼叫的FDR阈值均为0.01。5.ATAC-seq5万个细胞在含有0.1%NP40、0.1%吐温20和0.01%洋地*的冰冻ATAC-RSB中裂解。裂解缓冲液用含有0.1%吐温20的ATAC-RSB洗涤,4°C离心,含核小球重新悬浮在含有TagmentDNA缓冲液、TN5转座酶和0.05%吐温20的转座混合物中。反应在37°C恒定搅拌30min。转座DNA用QIAGENMinElute柱纯化。用NextEra测序引物和NEB高保真2×PCRMasterMix扩增3~5个循环。PCR扩增的DNA用QIAGENMinElute色谱柱纯化,并在梅奥诊所医学基因组设备的IlluminaHiSeq上用成对末端模式进行51个碱基对的测序。使用围绕CutAdapt的TrimGalore包装器去除接头序列,并使用Bowtie2将读数与人类基因组(Hg19)进行比对。使用Picard工具移除了重复读取。使用MACS2执行峰值调用。6.PGENMi输入生成DiffMark首先确定动态组蛋白标记位点为组蛋白修饰片峰(FDR0.01),该峰存在于M0或M6图谱的两个重复中,但在另一阶段的相同修饰中没有重叠的片峰。然后,通过将HCT细胞系的ENCODETF结合位点与动态组蛋白标记位点相交,保留有关组蛋白标记类型和变化方向的信息,生成DiffMark证据。DiffMarkAggrDiffMark证据通过分别计算每个方向上所有组蛋白标记的二元顺式调控证据的析取来生成DiffMarkAggr证据。这导致每个TF基因对有两个证据位,以及代表所有20个TF的40维证据载体。PresMark特定组蛋白修饰的芯片峰(FDR0.01)的存在,在任一阶段,在距离阈值内与TF芯片峰重叠,被编码为“1”,否则编码为零。这导致每个TF有4个证据位(每个组蛋白修饰一个)、基因对和代表所有20个TF的80维证据载体。DiffAccandPresAcc使用ATAC-seq图谱,DiffACC证据通过与DiffMark相似的程序产生,不同之处在于ATAC-seq峰(FDR0.05)被用来代替组蛋白标记CHIP-seq峰与TFBS相交。这给了我们每个TF基因对两个证据比特(一个用于可及性改变的方向),以及一个总共40维的证据载体。在生成PresACC证据时,在任一级中与距离阈值内的TF码片峰重叠的ATAC-seq峰的存在被编码为“1”,否则编码为零。这就产生了每个基因的20维证据载体。TFBS-Only利用TFBS芯片图谱生成TFBS-Only证据,其中存在编码为1的基因的TFBS,从而得到每个基因20维的证据。7.基因signature考虑DiffMark策略下上下分析的前5个TF,包括7个TF:Jund、FOSL1、CTCF、ZFX、RAD21、MAX和POLR2A。对于每个基因,计算与这些排名靠前的TF相关的RPOR的乘积,并使用该产品排名靠前的50、70或个基因作为基因signature。然后,该signature被用于对来自TCGA的名Coad患者的多组学资料进行聚类。使用KnowEnG系统对与signature中的基因相关的基因表达和体细胞突变以及针对它们的miRNAs的表达进行多组学聚类。使用KnowEnG系统对聚集性患者进行Kaplan-Meier生存分析,并用对数秩检验p值表示聚集性患者生存时间的差异,以选择最佳基因signature。对于使用相同基因集进行的所有测试,p值都经过Bonferroni校正。二、结果1、大肠癌细胞系的多组学研究获得通过宿主组织迁移和侵袭的能力是转移性癌细胞的标志。为了确定这一过程中的差异调控通路,作者通过涂有Matrigel细胞外基质的微孔膜反复选择能够趋化的细胞,获得了具有不同侵袭力的匹配SW细胞模型(图1a,M0是未经过选择的亲本SW培养物,M1是已经选择了一次的培养物,依此类推),经过反复选择的细胞显示出更强的侵袭性。使用pGENMi模型分析多组学数据(图1c),该模型对每个基因g使用一个隐藏的二元变量zg,表示该基因的差异表达是否与一个或多个TF相关(图1b)。为了实现差异表达方向与TF和组蛋白标记变化的调控方向之间的一致性,作者进行了两次整个分析,DEp值分别代表上调和下调的意义。这两个分析此后被称为向上和向下分析。图1.研究设计和分析框架示意图2、大肠癌侵袭性相关转录因子的鉴定通过对整个数据集的交叉验证,作者学习了模型超参数-距离阈值和正则化系数的最佳值(图2A),将所有基因随机分成训练集(80%)和测试集(20%),用测试基因的对数似然比(LLR)评价模型的准确性。分别对向上和向下分析执行交叉验证,确定了50kbp是顺式调控证据的最佳距离阈值。作者随后在整个数据集上重新训练模型,并根据它们对模型的贡献对TF进行排序,分别进行向下和向上分析(图2b,c),两项分析都确定ZFX、JUND和CTCF在前5名TF中。在整个数据集上训练FW-pGENMi模型时,作者发现向下分析和向上分析(图2d)之间的TF权重在方向性上基本一致。图2e显示组蛋白标记的变化与基因表达的变化是一致的。总之,FW-pGENMi模型的训练揭示了TF和组蛋白标记在侵袭性基因下调和上调中的作用。图2.通过模型学习的调控影响3、表观基因信息改善模型作者依靠交叉验证来比较上述建模策略,所有这些策略都涉及训练具有不同顺式调控证据定义的pGENMi模型。作者将所有基因分别按72%、18%和10%的比例划分为训练集、验证集和测试集;在训练集上训练pGENMi参数;使用验证集为两个超参数选择最佳值;并计算模型和测试基因集上的空模型的对数似然比(LLR)。这个过程重复次,使用不同的随机分区,使用DiffMark策略,模型的LLR分数的分布如图3a所示,DiffAcc策略依赖于TFBS的可及性变化作为顺式调控的证据,它产生的测试LLR比完全忽略可及4性信息更差,PresAcc策略产生了改进的结果,因此作者随后的分析报告了这种利用可及性数据的方法,而不是DiffAcc方法。图3b,c分别显示了所有策略的累积分布(CDF),分别用于向下和向上分析,这表明DiffMark策略产生了最高的测试LLR。PresAcc策略改进了用于向上分析的仅基准TFBS策略,但对向下分析没有影响。作者验证了在同一测试集上,使用次训练、验证和测试迭代,DiffMark测试LLR是否大于替代策略的LLR。DiffMark策略产生了更好的测试LLR,这表明在这些头对头的比较中的绝大多数情况下,基于看不见的基因“预测”表达的能力得到了提高(图3d,e)。这些结果清楚地证明了利用组蛋白标记变化作为TFBS的过滤器的价值。作者验证了这些TF对分析的意义。首先,作者建立了一个随机基线,其中所有顺式调控证据都被置换。然后在整个数据集上训练该模型,并计算LLR。重复0次,每次用不同的证据排列,作者得到了向下和向上分析的LLR分数的零分布(图3f,g)。用原始证据获得的LLR得分远远大于零分布中的得分。作者接下来验证来自CRC细胞系的TFCHIP-SEQ曲线是否比来自不同细胞系的CHIP-SEQ曲线对于分析更有用,作者获得了代表依赖于不同细胞系真实结合谱的模型的准确性的分布(图3f,g)。使用CRC芯片序列分布获得的LLR得分在向上分析中显著大于该分布的平均值,但在向下分析中并不显著。图3h和i分别显示了每个TF对向下分析和向上分析的重要性的度量,以及利用TF的CRC模型的平均LLR得分,这为读者提供了一种客观的方法来评估CRC相关的TF。图3.定义顺式调控证据的替代策略比较4、Jund作为CRC侵袭性调控因子作者通过实验测试了其中一个预测的TF,Jund,在大肠癌迁移和侵袭性中的作用。Jund(图4a)的敲低既损害了SW细胞的迁移(图4b),也削弱了SW细胞的侵袭(图4c)。图4.敲低Jund基因会损害细胞的迁移和侵袭5、TF调节子提供了一个预测预后价值的基因标志作者随后测试了Jund-KD-DE基因集是否在模型预测的Jund的介体中富集。前名预测因子与JUND-KD-DE集之间的重叠非常显著(图5A)。作者使用不同的簇数(3或4)、signature的大小(50、70或个基因)、网络的影响程度(平滑因子为0.3或0.8)和网络类型(蛋白质-蛋白质相互作用网络或路径联合成员网络)进行分析。使用这些参数中最好的参数(图5c)进行的生存分析显示,患者群的生存特征有统计学上的显著差异。这一结果与使用完整数据集(即,不过滤基因)获得的最佳聚类结果相当(图5d),表明基因signature能够仅在一小部分基因中捕获存在于完整多组学档案中的生存相关信息。图5转铁蛋白调节子提供了一个有预后价值的基因标记该研究团队的方法是使用概率图形模型来利用特定表观基因组变化提供的功能信息,同时模拟多个转录因子的影响,并自动学习顺式调节事件的激活或抑制作用。通过采用这种方法在控制良好的实验环境中研究CRC侵袭性,作者确定了这一过程的主要调节因子以及它们的一些关键因子。识别这些潜在的变化有可能极大地提高人们对控制转移进展的复杂调控过程的理解,并有助于识别可以作为治疗靶点的癌症的新特征。虽然许多癌症有共同的一般特征(例如,影响保守的癌基因相关途径的改变),但每个癌症中的特定途径中断在很大程度上是独特的和动态的。作者的分析方法为扩展力学和计算研究提供了几个潜在方向。首先,作者的分析确定了已知在大肠癌侵袭性中发挥重要作用的TF,以及其他贡献不明确的TF。然而,作者的方法并不能直接预测影响的总体方向。未来可能需要明确建模表型差异作为基因表达变化的函数,而基因表达变化又与调节因子的影响有关。这种多层次的影响网络(从TFs到基因再到表型)将是一个重要的研究前沿。第二个可改进的方向将是以非二进制方式合并顺式调控证据。最后,将本文提供的多组学数据和分析与TCGA和临床试验等患者队列研究中有关TF基因共表达的信息整合在一起将产生一场空前的学术认知。
来源:生信人
部分图片来源于网络
经“精准治疗”综合整理编辑
版权归原作者所有
如有违规、侵权请联系我们
免责申明:我们尊重原创,也注重分享,不作商业用途,仅作交流学习,版权归原作者,如有侵权敬请谅解,联系我们删除,电话、