头上白癜风怎么治 http://pf.39.net/bdfyy/bjzkbdfyy/150511/4621607.html体细胞变异
结构变异(SV)是染色体变异的一种,是内因和外因共同作用的结果,外因有各种射线、化学药剂、温度的剧变等,内因有生物体内代谢过程的失调、衰老等。主要类型有缺失、重复、倒位、易位。其大小在50bp以上,甚至可达几兆bp,相比于单核苷酸变异(SNV),SV在基因组中会影响更多的碱基对,并可能有严重的表型影响。SV一般分为种系变异(germlineSV)以及体细胞变异(somaticSV)。种系突变是指影响包括生殖细胞在内的整个有机体的突变,并因此遗传给受影响个体的后代;体细胞突变是指除生殖细胞外的体细胞发生的突变。不会造成后代的遗传改变,却可以引起当代某些细胞的遗传结构发生改变。绝大部分体细胞突变无表型效应。
肿瘤中结构变异检测的意义
目前科学研究表明,SV有致癌作用、会导致基因融合以及至少30%的肿瘤基因组会被结构变异所影响,因此结构变异的检测是极其巨有生物学意义的一件事情,尤其是在肿瘤基因组中。然而,探究结构变异在癌症中究竟扮演者什么样的角色,这件事情受制于相对困难的结构变异检测。尽管测序水平和工具的不断进步,肿瘤基因组中进行结构变异检测还受制于肿瘤本身的生物学特性,比如被健康组织污染,肿瘤内异质性(相同肿瘤的不同细胞之间的基因与表型也不同)以及多倍体性(人类DNA多倍体是染色体异常的表型,也是细胞癌变的特征指标)。因此癌症基因组中的结构变异检测仍然巨有挑战性。肿瘤中的变异分为很多种类,有所有细胞都有的种系变异,也有mosaicvariants,而体细胞结构变异检测所要识别的重点是肿瘤内特有的结构变异,也称TSSV(tumor-specificsomaticSVs),检测TSSV的主要方法是采集癌症组织和正常组织(tumor-normalsamples)进行比较得到结果。
第二代测序数据SomaticSV检测
目前,基于短读(shortread)数据进行结构变异检测,一般采取的方式有SR(splitread),RD(readdepth)以及DP(pairend)。基于二代数据所开的结构变异检测工具如DELLY,LUMPY,Manta等都使用了两种及以上的算法,这使得他们会精准检测出更多的结构变异比其仅仅是有一种算法。除此之外,将多个工具的检测结果使用相交或相并进行整合,可以在结构变异层面上进一步的提升检测的精度。由于实现高精度是大多数癌症研究和临床应用的首要任务,所以一般采取的相交的方式。
TSSV识别方法
使用tumor-normalsamples找到TSSV,一般需要两个步骤:两个样本分别进行结构变异检测两个数据集进行差异分析。如图所示可以先将不同工具检测出的变异相交得到两个数据集(tumorcallsets以及normalcallsets),之后进行差异性分析,找出目标的TSSV。也可以分别在不同工具下,先找到TSSV,再将TSSV的结构取交集以提高肿瘤特异性变异的检测精度。当与tumor样本对应的健康组织的样本不存在时,就可以使用panel-of-normals方法进行TSSV的识别,也就是取足够大的正常样本组进行对照组,这可以提供更多的统计能力来过滤germlineSV。第三代测序技术与SV检测
随着测序技术的不断发展,第三代测序数据也越来越多的应用到结构变异的检测上,比如PacBio和ONT就是生成三代测序数据的大平台,他们生成的read的长度都在10kbp以上,这使得基于三代结构变异检测工具比二代的工具可以检测出两倍多的变异、但是三代数据本身也有很多局限性,比如与二代数据相比需要花费更多的资金,需要大量的样本以及具有更低的准确性。随着算法的不断发展,basecalling以及errorcorrection这两种技术都使得这些平台生成数据的准确性有所提升。
基于三代数据做结构变异检测主要基于两种方法,分别是基于拼接(assembly)和比对(readalignment)。基于拼接的算法对杂合变异的检测具有更高的敏感度,但是需要更高的覆盖度。基于比对的算法在识别纯合变异上有更好的性能。然而在临床中,没有足够的资源可满足基于拼接算法的覆盖度的需求所以一般都聚焦于read-alignment的方法
多平台的整合提升SomaticSV检测性能
整合基因组和转录组数据可以进一步完善变异检测,为进一步了解SV的表型效应提供依据,专门解决基因融合等复杂问题。其次短读和长读数据可以补充每个平台的优势,比如短读和长读的混合拼接。使用染色质分析也可以发现大型复杂变异。除此之外,可以将现有的技术纳入正在进行的研究中,比如说之前的微阵列技术、外显子组测序技术等。
展望
随着测序技术和工具的进步,SV检测领域正在不断改进。这些进展将有助于发现sv在癌症中的作用。然而,由于独特的生物学和技术挑战,肿瘤样本中的SV检测和解释变得复杂。基于二代以及三代数据都可以进行结构变异的检测,短读数据通过多平台的整合可以有很好的性能,长读测序技术可以解决大型、复杂的SV,但是需要更多资金样本。除了germlineSV的检测,还需要将TSSV从中分离出来,这也是目前somatic变异的难点之一。通过整合来自多个平台和检测工具的数据来提高TSSVs的检测水平,可以将TSSV用于精确肿瘤学和研究其在癌症中的作用。
本期编辑:吴晓亮、王福旭
哈工大生物信息