抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

前阵子去兰州开全国植物生物学大会,做实验的师弟问了我一个问题:什么是ATAC-seq?因为王茂军老师课题组有同学在做CUT&Tag,我脑海里第一个出现的也是CUT&Tag,两者的研究内容虽然不同,但是使用的分析方式是非常相似的。正好看到菲沙基因做过这两个技术的讲座,这篇博客就整理一下介绍这两个技术以及衍生技术的分析原理,加深下自己的理解,详细的分析流程留到以后需要做的时候再记录。

1. ATAC-Seq

ATAC-seq全称Assay for Transposase Accessible Chromatin with high-throughput sequencing,翻译为转座酶可及染色质的高通量测序分析,简单来说这个技术是运用转座酶获取开放染色质区,然后通过高通量测序技术和生物信息学挖掘相关的基因信息,解决生物学相关问题。

1.1 背景介绍

什么是开放染色质?

在前面介绍三维基因组的博客中,介绍了真核生物的染色质结构由低级到高级可以分为4种,染色体的基本结构单位是核小体,核小体串珠结构螺旋化(也就是不断地压缩折叠)形成了直径为30nm的染色质纤维,细胞核内大多数染色质都是以这种染色质纤维的形式存在的。

我们知道DNA的复制和转录过程需要将染色质紧密的结构打开(打开的过程与组蛋白乙酰化有密切联系,组蛋白乙酰化使组蛋白携带的正电荷减少,削弱了组蛋白与DNA结合的能力,从而使染色质区域的结构从紧密变得松散),这部分打开后结构疏松的染色质就是开放染色质(open chromatin),当染色质打开后,暴露的DNA序列就有足够的空间和转录因子(Transcription factors,TF)结合,进而调控基因的表达。

这种允许顺式调控元件和反式作用因子结合,也就是允许与染色质进行物理接触的程度就是染色质的可接近性(chromatin accessibility),也称为染色质可及性

如何检测染色质开放区?

简单说一下几个常用的检测染色质开放区的方法。

一种是传统的使用DNA酶的实验方法MNase-seqDnase-seq。两者的思路都是将开放染色质区的DNA用DNA酶酶切后进行高通量测序。前者用的是限制性外切酶,将不受核小体保护的区域切除,只留下核小体上缠绕的DNA序列;后者用的限制性内切酶,将受核小体保护的区域切除,留下核小体之间的序列。

另一种是基于酚氯仿抽提的技术FAIRE-seq技术,超声波破碎甲醛固定的染色质,酚氯仿抽提得到的上层水相认为是潜在的开放染色质区,针对抽提得到的片段化开放性染色质区进行建库测序。

还有一种就是经典的研究蛋白与DNA互作的ChIP-seq技术,因为需要制作对应的转录因子的抗体去拉DNA,所以该技术只能根据明确的转录因子来检测该转录因子与DNA的互作,局限性比较大,这里就提一下不放在一起比较了。

最后就是ATAC-seq技术,依赖改造的Tn5转座酶(转座DNA设计为测序接头)将测序接头引入染色质开放区,对酶切后的DNA片段进行富集,最后通过PCR扩增后进行高通量测序。另一方面,转座酶还可以切割开放区染色质附近的核小体间连接区DNA,简单来说可以得到MNase-seq和Dnase-seq两种技术的结果。

如下图所示,我们可以比较一下这几种检测染色质开放区技术的检测范围和灵敏度:

研究方法 细胞数量 获取方式 优点 缺点
DNase-seq 1*10^7 DNase Ⅰ切割不受保护的DNA序列 单碱基对的酶切位点分辨率 酶用量要准确控制,切割有偏好性
MNase-seq 1*10^7 MNase优先切割受保护的DNA序列 酶切特性有较高分辨率 酶用量要准确控制,切割有偏好性
FAIRE-seq 1*10^5~1*10^7 超声波打断染色质 无偏性分析,重复性好 信噪比低,数据解读困难
ATAC-seq 5*10^2~5*10^4 改造的Tn5转座酶切割开放区并插入测序接头 细胞需求量少,实验时间短,灵敏度高,重复性好 容易引入线粒体污染

1.2 实验流程

整个实验流程可以分为6个步骤:

  1. 细胞悬液制备(500~50000个细胞,最难的一步)
  2. 细胞裂解,制备细胞核(完整性十分重要)
  3. Tn5酶切,37℃酶切孵育
  4. DNA片段纯化,磁珠法回收
  5. PCR扩增12-15个循环
  6. 上机测序

上面PCR扩增这一步的流程,可以看到Tn5酶切过程中会在上下游分别产生一个缺口,因此需要72℃延伸的过程来补平缺口。引入barcoded primer是为了区分不同的样品(单细胞测序的话是区分不同类型细胞)。

从上面的实验流程也可以看出,ATAC-seq中比较重要的步骤是细胞悬液制备和提取完整的细胞核,在细胞裂解和提取细胞核过程中,线粒体DNA可能会与染色体DNA一起被提取和处理,从而引入线粒体污染。线粒体是没有组蛋白保护的,容易被Tn5转座酶切割,同时线粒体的拷贝数也比染色体高很多,如果线粒体在实验过程中没有去除,很容易导致线粒体DNA被富集,影响染色体DNA测序深度和覆盖度。

1.3 生信分析

获得下机数据后,就可以开始做上下游的生信分析。因为我自己没跑过这个流程,所以这里以菲沙基因提供的流程为例,着重介绍ATAC-seq流程中产生的图如何解读,以及我们可以做哪些下游分析。

下机数据预处理

拿到下机数据后首先去接头(adapter trimming),然后比对到参考基因组(alignment),对比对后得到的bam文件进行过滤,具体而言是提取可靠比对、去除PCR重复(推荐用picard软件)、去除细胞器污染(主要是线粒体和叶绿体)这三步。这些处理方式都是老朋友了。

数据质量评估

ATAC-seq数据质量评估主要是看两个图,一个是插入片段分布图(Fragment Insertion Size Distribution),一个是TSS富集峰图

插入片段分布图

ATAC-seq的插入片段分布有着非常鲜明的特点,一般把<100 bp的片段区域称NFR(Nucleosome-Free Region)也就是无核小体区,这部分区域也是转座酶最容易切割的区域,每隔10.5 bp就有一个小齿,对应DNA螺旋一周的间距。200 bp有一个峰对应的是核小体单体的插入片段长度,再远点的400 bp和600 bp有两个小峰,对应核小体二聚体和核小体三聚体的插入片段长度。

TSS富集峰图

转录起始位点(Transcription Start Site,TSS)是没有核小体的,所以在ATAC-seq质控分析中,可以明显看到NFR在转录起始位点富集。以上图为例,我们选择TSS上下游3Kb的区域,NFR reads在TSS位点两侧有明显富集趋势。底下的热图也是同样的意思,每一行表示一个基因或者转录本,图中的红色区域也不一定要延伸到底,因为部分TSS可能没有在这个时期开放,这是很正常的现象。

这两个质控步骤可以先做第一个,第二个TSS富集峰图需要在peak calling和转换文件格式为.bw之后,使用Deeptools工具作图。

Reads Shifting

质控后还有一个步骤是进行reads shifting,前面说过Tn5酶切过程中会在上下游产生一个缺口,因此需要将正链正向移动4bp,负链负向移动5bp。

这一步在ACAT-seq的原文中有做,不做的话对单碱基分辨率要求比较高的分析是有影响的(比如转录因子足迹分析,下面的Motif Analysis会说)。

Peak Calling

peak calling是后续所有分析的基础。简单来说,在将reads比对到参考基因组后,因为进行的是pair-end测序,一对reads之间的序列为一个fragment,统计每个碱基上fragment的数量作图,哪个地方fragment数量多,在统计图上就会显示出一个峰,也就是一个peak。peak calling的过程就是检测染色质开放区的fragment富集信号。

这一步用的软件有比较经典的MACS2,这个软件可以处理ChIP-seq、ATAC-seq、CUT&TAG等等的数据,需要调整不同的参数。与ChIP-seq不同,ATAC-seq的Tn5转座酶酶切的是染色质开放区域,在TF结合区域的DNA是拉不下来的(反映在峰图上是一个谷,ChIP-seq是一个峰),因此在调整峰值偏移(peak shift)的时候,一般用shift-extend的方法进行分析,ATAC-seq需要向外shift。如下图:

比如我们测序reads长度是150bp,两条reads的5‘端代表Tn5的酶切位点,我们需要向外shift 75bp,让酶切位点处于reads的中间位置,再进行peak calling。

用上面的软件进行peak calling后会生成bedGraph文件,也就是.bdg后缀的文件,是bed文件的一种扩展,可以在IGV基因组浏览器中打开(可能会比较卡),也可以借助UCSC的工具bedGraphToBigWig转成BigWig文件后(.bw后缀)再到IGV基因组浏览器中打开。还有一个重要的结果文件是.narrowPeak后缀的文件,也可以直接导入IGV。

以上上游分析的步骤可以参考ATAC-seq data analysis: from FASTQ to peaks | Yiwei Niu’s Note

接下来是常见的一些下游分析的方法。

IDR Peak

对于一个样本如果做了多个重复,就需要对样本的可重复性进行评估。可以用ENCODE项目的一个软件包Irreproducible Discovery Rate (IDR) ,导入两个样本的.narrowPeak结果文件后作图分析,这个软件的作用是评估重复样本间peak的一致性,生成的图如下:

IDR算法同时考虑了peaks间的overlap和富集倍数的一致性。上面的图所有的点都是两个样本间相互overlap的peak,也就是都是可重复的,红点代表富集倍数是有差别的,黑点代表富集倍数是一致的,因此黑点数量越多越好。

Peak Annotation

拿到peak后,如果想要知道这些peak在基因组的哪些地方分布功能是什么,就需要对peak进行注释,常用的有R包ChIPseeker

Motif Analysis

这一部分能做的分析还是相当多的,列举几个:

  • 从头预测:预测新的motif,注释已存在的motif。软件:MEME+Tomtom
  • Motif扫描:除了开放染色质区域,寻找其他序列所有motif的位置信息。软件:FIMO
  • 转录因子富集:软件AME或者HOMER
  • 转录因子足迹(TF FootPrint):转录因子占位效应(转录因子结合在DNA上,阻止了Tn5酶切,在开放染色质区域留下一个缺失的位置),注意要进行前面说的reads shifting。软件R/centipade

常用的motif数据库:

Nucleosome positioning

核小体定位,从前面的插入片段分布图可以看出,在ATAT-seq文库中,核小体单体插入片段数量相比NFR明显少很多,但是也有一些软件比如NuleoATACHMMRATAC可以用于核小体的占位分析。

联合分析

  • ChIP-seq:由于转录因子的结合区域在染色质开放区,因此ATAC-seq的peak和ChIP-seq的peak之间存在部分重叠,因此这两个组学联用可以相互验证,而转录因子在ChIP-seq中独有的Peak则暗示这个转录因子可能是结合在异染色质区域的驱动型转录因子(Pioneer TFs)。对于组蛋白修饰的ChIP-seq而言,前面也说过组蛋白乙酰化与染色质开放区形成有重要联系,同样可以与ATAC-seq进行联合分析。
  • RNA-seq:比如将ATAC-seq的信号在gene body上的分布做比较,或者按照基因不同的表达量做分类,再与ATAC-seq联用分别统计不同表达量基因的TSS上的富集信号,研究ATAC-seq的富集信号是否与基因表达量相关、差异表达的基因是否受染色质可及性的调控等等。

2. CUT&Tag

CUT&Tag全称Cleavage Under Target & Tagmentation,翻译为靶向剪切及转座酶技术,是一种研究蛋白-DNA互作的技术,替代传统的ChIP-seq方法。开头介绍ATAC-seq和CUT&Tag非常相似,原因就在于CUT&Tag也用Tn5转座酶,只不过这个酶是Protein A/G融合的Tn5转座酶。当然,两者研究内容还是不一样的,下面详细说一下。

2.1 背景介绍

ChIP

前面介绍ATAC-seq的时候已经拿ChIP-seq做过对比,这里为了引出CUT&Tag还是对ChIP技术做个简单介绍。ChIP全称Chromatin Immunoprecipitation,翻译为染色质免疫共沉淀,顾名思义,这个技术有个鲜明的特征就是抗原抗体免疫反应。

下面是ChIP-seq的经典流程:

我们知道,抗原抗体反应具有专一性,所以我们制备特定的转录因子的抗体(一般是多克隆抗体),将细胞核内的染色质用甲醛交联固定后进行超声破碎,这个时候与转录因子结合的DNA序列不会被打断。加入抗体做免疫共沉淀,解交联后获得与转录因子结合的DNA序列,建库测序就可以做后面的分析。

ChIP技术分类

  • N-ChIP:用的是Native Chromatin,原生态染色质,DNA片段化的方法为酶切,用上面提到的MNase。只能处理结合能力比较强的蛋白(一般用于组蛋白修饰),蛋白复合体存在解离的风险,实验难度相对较大。
  • X-ChIP:用的是Cross-linked Chromatin,甲醛交联的染色质,DNA片段化方式为超声波。甲醛交联的背景一般比较高,抗体识别位点可能会被屏蔽。

ChIP-seq技术非常依赖于抗体质量,如果研究低表达的蛋白,制备抗体的也是很大的挑战。近年在鉴定转录因子结合位点上又出了个新技术DAP-Seq,通过体外蛋白表达技术,表达出带有Halo标签的转录因子蛋白。通过Halo标签的抗体富集对应的蛋白DNA复合物,从而使所有蛋白都可以被一种抗体(Halo标签抗体)富集,绕过了抗体制备的难题(和后面要说的没啥关系,写到技术分类这里提一嘴)。

CUT系列技术

  • CUT&RUN:Cleavage Under Targets and Release Using Nuclease,靶向剪切和核酸酶释放,这里用的核酸酶是与Protein A/G融合的MNase。
  • CUT&Tag:Cleavage Under Targets and Tagmentation,靶向剪切和转座酶,这里用的酶是Protein A/G融合的Tn5转座酶,是CUT&RUN技术的改进版。

两种技术用的酶不一样,Tn5转座酶可以插入测序标签,因此CUT&Tag比CUT&RUN节省了更多建库时间,1天就可以完成建库。

2.2 实验流程

整个实验流程可以分为6步:

  1. 收集细胞,刀豆蛋白的磁珠吸附细胞膜
  2. 细胞电穿孔后分别孵一抗和二抗,一抗结合目标蛋白,二抗放大信号
  3. Hyperactive pA/pG-Tn5 Transposon结合,这种改造的Tn5转座酶会特异性识别抗体并结合
  4. 加入镁离子或者钙离子激活Tn5转座酶,片段化DNA
  5. 提取DNA
  6. PCR扩增文库

上面的流程图可以看出,CUT&Tag与ATAC-seq的区别就在于,CUT&Tag用了抗体,Tn5转座酶进一步改造可以识别抗体。

因此CUT&Tag实验需要做阴性对照(IgG),CUT&Tag文库和ATCA文库差别就在于抗体识别的蛋白,如果抗体的特异性很差,比如在所有组蛋白上都有结合,那这个时候建库得到的就是ATCA文库而不是CUT&Tag文库。这个时候阴性对照就很重要了,如果在IgG上也能出正常的PCR结果,就说明抗体有问题或者实验设计有问题了。

因为CUT&Tag用的是Tn5转座酶,所以也有一个缺陷,比如要研究异染色质的蛋白与DNA互作就做不了,因为Tn5转座酶无法在异染色质区剪切DNA。或者你要研究的蛋白空间结构比较大,导致Tn5转座酶无法剪切到DNA,这个时候也不能用CUT&Tag。

2.3 生信分析

CUT&Tag生信分析和ATAC-seq几乎一模一样,下游分析也可以做IDR Peak、Peak Annotation和Motif Analysis,这里就不赘述了。

欢迎小伙伴们留言评论~