1.定义与目标
转录组是指特定细胞、组织或生物体在特定发育阶段或生理/病理状态下所有转录出来的RNA分子的总和。它不仅包括最终翻译成蛋白质的信使RNA,还包括不翻译成蛋白质但具有重要功能的非编码RNA。
转录组测序是利用高通量测序技术对转录组进行大规模、全面分析的技术。它克服了传统微阵列技术(如芯片)在检测范围、灵敏度、定量准确性等方面的限制。
核心目标:
基因表达定量: 精确测量不同基因或转录本的表达水平(丰度)。
转录本结构分析: 鉴定可变剪接事件、转录起始位点、终止位点、外显子使用情况等。
新转录本发现: 识别未被注释的新基因、新剪接变体、非编码RNA等。
融合基因检测: 发现因染色体易位等原因产生的融合转录本(尤其在癌症研究中重要)。
等位基因特异性表达: 研究来自父本和母本等位基因的表达差异。
通用流程:
样本采集与RNA提取: 从目标组织或细胞中提取总RNA。RNA质量至关重要(常用RIN值评估)。
文库构建:
mRNA富集: 通常使用oligo-dT磁珠特异性地捕获带polyA尾的mRNA(真核生物),或去除rRNA(原核生物或需要保留非polyA RNA时)。
片段化: 将长RNA分子随机打断成适合测序仪读长的片段(如150-300bp)。
cDNA合成: 以RNA片段为模板,用逆转录酶合成第一链cDNA,再合成第二链cDNA。
接头连接: 在cDNA片段两端连接测序平台特异的接头(包含测序引物结合位点和样本索引)。
文库扩增与质检: 通过PCR扩增文库,并进行质量控制和定量。
高通量测序: 将文库加载到测序仪上进行大规模并行测序(如Illumina平台的边合成边测序技术)。
生物信息学分析:
数据质控: 去除低质量读段、接头序列等。
序列比对: 将测序读段比对到参考基因组或转录组上。
基因/转录本定量: 计算基因或转录本的表达量(常用FPKM、TPM或Counts)。
差异表达分析: 比较不同组间(如处理vs对照、疾病vs健康)基因表达水平的显著变化。
可变剪接分析: 识别和量化不同的剪接异构体。
新转录本预测: 识别未被注释的转录区域。
功能富集分析: 对差异表达基因进行GO、KEGG等通路富集分析,解释生物学意义。
定义与目标:
专门针对长度较短(通常18-35nt)的非编码RNA进行测序分析。
主要目标分子:
microRNA: 最重要的调控小RNA,通过结合靶mRNA的3'UTR导致其降解或翻译抑制,调控基因表达。是研究的核心。
siRNA: 主要参与RNA干扰通路和异染色质形成。
piRNA: 主要在生殖细胞中表达,沉默转座子以维持基因组稳定性。
其他:如snoRNA衍生的小RNA等。
核心目标:
鉴定样本中存在的所有小RNA种类(尤其是miRNA)。
精确定量每种小RNA的表达水平。
发现新的小RNA分子(尤其是新的miRNA前体或成熟体)。
研究小RNA在基因调控、发育、疾病(如癌症标志物)中的作用。
技术特点(与常规mRNA-seq主要区别):
文库构建:
大小选择: 核心步骤!在RNA提取后或cDNA合成后,通过凝胶电泳或磁珠分选等方法,严格筛选18-35nt大小范围的RNA片段。这是富集小RNA的关键。
3'和5'接头连接: 由于小RNA很短,需要先在两端分别连接特异的3'和5'测序接头(常规mRNA-seq是打断后连接)。这些接头通常经过特殊设计以适应小RNA的长度和末端结构(如miRNA的5'磷酸和3'羟基)。
逆转录与PCR: 连接好接头的RNA进行逆转录生成cDNA,再进行PCR扩增。
测序: 通常进行单端测序(SE),读长足以覆盖整个小RNA分子(如50bp SE)。
数据分析:
去接头: 精确去除测序读段两端的接头序列,得到小RNA的真实序列。
长度筛选: 过滤掉长度不符合小RNA范围(如<18nt或>35nt)的读段。
比对与注释: 比对到参考基因组,并使用小RNA数据库(如miRBase)注释已知miRNA/siRNA/piRNA等。鉴定新miRNA需要特定的预测算法。
定量与差异分析: 计算每个小RNA的counts数,进行表达量标准化和差异表达分析。
定义与目标:
全转录组测序旨在尽可能全面、无偏向性地捕获和分析一个样本中存在的几乎所有类型的RNA分子。 它超越了传统的只关注polyA+ mRNA的测序方法。
目标RNA类型:
PolyA+ mRNA: 编码蛋白质的信使RNA。
非polyA mRNA: 一部分mRNA(如组蛋白mRNA)没有polyA尾。
长链非编码RNA: 长度>200nt,不编码蛋白质,但具有重要的调控功能(如Xist, NEAT1)。
小RNA: 包括miRNA, siRNA, piRNA等(通常需要单独富集或通过生物信息学从总数据中筛选)。
核糖体RNA: 虽然通常被视为需要去除的“噪音”,但在某些研究(如rRNA修饰)中也可能被分析。
转运RNA: 及其衍生的小RNA。
环状RNA: 具有共价闭合环状结构的RNA分子,由反向剪接产生。
其他:如snoRNA, snRNA等。
核心目标:
获得样本中所有RNA种类的完整表达谱。
研究不同类型RNA(编码和非编码)之间的相互作用和调控网络。
发现新的转录本,特别是新型非编码RNA。
在系统水平上理解基因调控的复杂性。
技术特点:
文库构建:
去除rRNA是关键: 由于rRNA占总RNA的80-90%以上,是主要噪音来源。常用方法有:
探针杂交去除: 使用与rRNA序列互补的生物素标记探针杂交,再用链霉亲和素磁珠去除。
酶消化去除: 使用特异性降解rRNA的酶。
不进行polyA选择: 避免丢失非polyA RNA。这是与常规mRNA-seq最本质的区别。
片段化与链特异性: 总RNA被随机打断。文库构建通常采用链特异性策略(在第二链cDNA合成时引入dUTP,后续酶切降解第二链),以保留RNA来源链的信息,这对lncRNA、反义转录本和精确界定基因边界至关重要。
接头连接与扩增: 与常规流程类似。
测序: 通常需要双端测序(PE)和较深的测序深度,因为需要覆盖更多种类的RNA,且rRNA去除不可能100%有效,有效数据的比例相对较低。
数据分析: 非常复杂和全面。
包含常规mRNA-seq的所有分析(表达定量、差异表达、可变剪接、新转录本)。
lncRNA鉴定与注释: 使用特定流程和数据库(如GENCODE, NONCODE)识别和定量lncRNA。
circRNA鉴定: 使用识别反向剪接点的算法(如CIRI2, find_circ)进行预测和定量。
小RNA分析: 可以从总数据中筛选出小RNA长度的读段进行单独分析(但灵敏度和特异性可能不如专门的小RNA测序)。
整合分析: 将不同RNA类型的表达和调控关系进行整合分析(如miRNA-mRNA相互作用,ceRNA网络)。
| 特征 | 常规转录组测序 (mRNA-Seq) | 小RNA测序 (smRNA-Seq) | 全转录组测序 (Total RNA-Seq) |
|---|---|---|---|
| 主要目标 | PolyA+ 信使RNA (mRNA) | 小RNA (miRNA, siRNA, piRNA等, 18-35nt) | 所有类型的RNA (编码和非编码) |
| 文库关键 | Oligo-dT 富集 polyA+ RNA | 凝胶/磁珠严格大小选择 (18-35nt) | 去除核糖体RNA (rRNA) |
| 优势 | 成本较低,专注蛋白编码基因表达 | 高灵敏度、特异性检测小RNA | 最全面的转录组视图,捕获非编码RNA |
| 劣势 | 丢失非polyA RNA (lncRNA, circRNA等) | 只能检测小RNA | 成本较高,数据分析更复杂,rRNA去除有残留 |
| 测序策略 | 通常双端测序 (PE) | 通常单端测序 (SE, 50bp) | 通常双端测序 (PE),需要更深深度 |
| 链特异性 | 可选,推荐 | 通常不适用 (小RNA本身短) | 强烈推荐/必需 |
| 主要应用 | 基因差异表达,可变剪接 (mRNA) | miRNA表达谱,新miRNA发现,调控机制 | 系统生物学,非编码RNA研究 (lncRNA, circRNA),新转录本发现,全面表达谱 |
选择哪种方法?
如果你只关心编码蛋白质的基因的表达水平和剪接变化,mRNA-Seq通常是最经济高效的选择。
如果你专门研究microRNA或其他小RNA在疾病、发育或调控中的作用,小RNA-Seq是必需且最灵敏的技术。
如果你想要一个最全面的视角,研究所有类型的RNA(包括lncRNA, circRNA, 非polyA mRNA)及其相互作用,或者进行新转录本的探索性发现,那么全转录组测序是最佳选择,尽管成本和数据分析复杂度更高。
总而言之,转录组测序技术(mRNA-Seq, smRNA-Seq, Total RNA-Seq)为我们提供了强大的工具来解码细胞在RNA层面的复杂活动。理解它们各自的原理、目标、技术特点和适用场景,对于设计合理的实验方案和解读研究结果至关重要。
|
|