转录组分析

基因芯片和RNA-seq数据的预处理

芯片数据的处理主要集中在标准化过程,对基因芯片数据的标准化处理,主要目的是消除由于实验技术所导致的表达量(Intensity)的变化,并且使各个样本(sample)和平行实验的数据处于相同的水平,从而使我们可以得到具有生物学意义的基因表达量的变化。标准化过程主要包含芯片内标准化和芯片间标准化。

芯片内标准化根据目的不同可分为消除染色偏差的Lowess Normalization (Locally Weighted Linear Regression),消除点样针头引起的空间差异的Print-tip Normalization。 芯片内的数据标准化,主要是去除每张芯片的系统误差,这种误差主要是由荧光染色差异,点样机器(arrayer print-tip),或者杂交试验所产生的,通过标准化,使每个基因的表达点都具有独立性。我们采用的标准化方法是局部加权回归分析:Lowess normalization.

常用的芯片间标准化有中位数标准化(Median Normalization)和分位数标准化(Quantile Normalization)。因为多个样本是分别在不同芯片上实验的,所以需要将不同试验芯片的数据调整到同一水平。常用的方法是平均数、中位数标准化(mean or median normalization)。即:将五组实验的数据的log ratio中位数或平均数调整为0。另外,一般芯片的杂交实验很容易产生误差,所以经常一个样本要做3~6次的重复实验。平行实验间的数据差异可以通过Quantile Normalization去处掉。

对于RNA-seq数据的分析,我们提供了完备的质量报告,包括测序的质量控制和比对到参考基因组的信息报告。


上图是比对数据的质量控制(SeQC),报告测序数据比对到参考基因组情况。

上图是目标基因从5’到3’的覆盖度曲线图,反映比对到目标基因的reads深度。


RNA-seq数据去除掉低质量的reads和接头后,标准化一般采用RPKM(或FPKM)的方法,但是,目前已有多篇国际学术论文证明RPKM相比较其他几种比较成熟的标准化方法(DESeq和TMM)而言有很多缺陷。研究者用RPKM往往会丢掉一些实际上是差异表达的基因。我们舍弃目前RNA-seq常用的RPKM的方法,采用DESeq,TMM(Trimmed Mean of M values)和FQ(full quantile)等多种方法进行标准化,而且找到的差异基因取交集,从而找到更多的更可信差异基因,而且这样的统计方法也更加合理。



寻找差异表达基因

     两组或多组实验状态下需要比较基因的表达差异,常规的方法包括统计学检验、倍数变化和聚类等。我们采用TMM和DESeq等多种标准化方法,利用R包中的精确二项式检验(exact binomial test)可以提高差异表达基因鉴别的准确性,同时还进行多重检验校正,报告FDR值,确保了差异基因筛选的真实性。


上图为MHC区域差异基因的热图(heatmap)


差异基因簇(gene-set)分析

 基因簇是按照功能、染色体定位、信号通路或具有某些特定意义的基因分组。相比较与单纯的差异基因分析,基因簇分析可以帮助研究者更有针对性的观察某一相关研究领域的差异表达变化,确定主要影响的基因分组和感兴趣的分组下的核心基因。

上图为差异的基因分组在case-control两组间的比较


上图为转录因子复合物这一分组下的富集图,通过该图可以判断两组在转录因子复合物上的差异,并且找到该基因分组下的核心基因。


基因表达模式(或趋势)分析

在一系列数据中(例如不同组织,不同发育阶段,不同药物处理或不同生理条件下),研究者希望通过这些有一定顺序的数据(serial transcriptomic data)找到特定的表达模式(expression pattern)。按照表达模式的不同,我们可以将基因分成以下四类:特意性表达基因,选择性表达基因,管家基因和抑制基因(specific genes, selective genes,housekeeping genes and repressed genes)


上图为四种模式的基因表达情况。


差异表达基因的功能富集分析

 研究者希望找到实验处理后影响差异表达的基因以及它们主要在哪个些功能或信号通路里富集。

同时我们将显著功能富集GO之间的从属关系表示出来,这样可以很方便快捷的了解突变基因影响的功能群体,为之后的功能实验的分析提供便利。


差异基因相互作用网络构建

研究者感兴趣的基因往往同时参与多个通路,另外,基因产物间存在复杂的相互作用关系,这种交叉效应构成了复杂的调控网络。我们将已有的Intact,Reactome,DIP,BioGRID,MINT,KEGG等多个数据库的蛋白质相互作用关系以及转录因子作用信息整合,通过相互作用网络构建,可以轻松的确定处于核心地位的调控基因。

上图为基因相关作用网络,不同颜色的线表示不同种类的作用关系,同时节点越大表示与该基因相关作用的关系越多。


另外,如果差异表达的基因比较多,研究者希望通过宏观的层面看到差异表达基因影响的pathways之间的相互作用关系,来确定感兴趣的pathway。我们将构建pathways的相互作用网络,帮助研究者找到差异的核心pathway,以及各pathway之间的调控关系。


基因间表达相关网络构建

 由于基因间存在相互作用关系,基因产物间也存在相互作用,因此在表达数据中,我们可以看到一些基因与另一些基因在表达上强相关(correlation),通过计算各个基因表达值的相关性构建表达相关网络,找到起核心作用的基因,反映表达基因内部的联系规律,为进一步研究提供方向。

上图为表达相关情况用热图(heatmap)表示出来,颜色越浅相关系数越高(越相关)。


上图为表达相关网络,节点越大,与该基因相关的基因个数就越多。