基因组分析

利用外显子测序或全基因组测序寻找单核苷酸多态性(SNP)/拷贝数变化(CNV)/插入和缺失(InDels)

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。利用二代测序进行全基因组重测序,能够全面挖掘基因序列差异和结构变异,不仅可以获得大量的单核苷酸多态性(SNP)信息、序列的插入缺失位点信息,还可以检测到多种结构变异(SV)和拷贝数变化(CNV)。

通过对获得的海量数据进行分析比对,能够发现或检测与疾病发生相关的序列位点信息,有助于理论科研、疾病诊断、药物作用靶点以及个体化诊疗的进一步发展,在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异-SNV,实现遗传进化分析及重要性状候选基因预测。由此,全基因组重测序具有重大的科研和应用价值。

显著变异位点和显著变异的Pathway

 外显子测序或全基因组测序的结果分析中,研究者往往会发现很多突变位点,其中某些基因的突变数比其他基因较多,研究者就把这部分基因当做疾病发生中重要的基因。但实际上,这种传统的处理方法是不准确的,因为这类突变数多的基因一般是比较长的基因,那么在这些特别长的基因上,就很容易发现变异(因为测序错误或中性突变等背景突变)。因此,在寻找突变与疾病的关系时,基因长度和突变个数的关系也应该是一个必须考虑的因素。这里,我们将基因内测序覆盖的长度作为有效长度,在整个样本中背景突变率(background mutation rate)的基础上,确定哪些基因是显著突变的基因,以及显著影响的Pathways。

显著突变基因:

显著突变的pathways:



变异位点之间的相互关联,临床表型和变异位点的关联

在研究变异位点与疾病的关系时,变异位点之间的内在联系也是研究者往往考虑的。确定哪些变异位点是共发生的相关性,哪些位点是互斥的关系,有利于找到基因组变异在疾病发生中的作用。

图是多个癌症样本中非同义不变的比较,其中EMR3FAT3突变共发生(P=0.03),RB1TP53突变互斥(P=0.014)

最终,研究者想要确定突变型与临床表型的关系,但研究者在收集样本时记录了多种临床表型,例如年龄、种族、肿瘤的阶段和肿瘤的生存周期(survival periods),这时寻找变异对与临床表型的贡献就有了一定的难度。我们将多种表型作为协变量,确定突变与表型的关联,最终确定,对于哪种表型,突变的影响大。


突变位点聚集分析

因为某些原因,一些基因的突变位点在某些功能域聚集,这一现象可能隐含着有趣的课题。我们在特定的窗口内寻找突变位点附近的其他突变位点,报告变异聚集现象。用户可以提供自己感兴趣的窗口大小,我们一般采用14个氨基酸大小的窗口,因为根据COSMIC已有的数据信息,我们发现25%左右的相邻的两个突变的距离在7个氨基酸左右。

上图展示了突变聚集的基因,以及突变的位置和类型


此外,我们还将根据基因本身序列的特点,模拟随机突变的产生,计算观察到的突变聚集的统计学显著性。

上图是十万次随机模拟中产生特定范围突变聚集的次数,可以看到出现观测道德639bp范围的大量突变的概率远小于1/10000


突变基因功能富集分析

我们整合了Ensembl、NCBI和AmiGO等数据库的信息,具有更完备的注释。富集分析时,我们将GO的层次结构考虑进去,这样更加合理的确定GO的显著性水平。

同时我们将显著功能富集GO之间的从属关系表示出来,这样可以很方便快捷的了解突变基因影响的功能群体,为之后的功能实验的分析提供便利。

显著富集的GO从属关系构建

基因组关联分析(GWAS)

全基因组关联分析(Genome-wide association study)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。

上图为Q-Q plot,初步展示数据质量。图中多数P值偏小,说明假阳性结果较多

上图为MDS plot,展示人群分层(population stratification)


20个SNPs的连锁不平衡图 (linkage disequilibrium (LD) map),展示单倍型。


上图为Manhattan plot,展示全基因组显著的SNPs的染色体分布