一、转录组测序的原理
转录组测序的核心原理是将RNA分子转化为cDNA(互补DNA),再通过高通量测序技术读取序列信息,最终通过生物信息学分析量化基因表达其技术基础主要依赖“边合成边测序”(Sequencing by Synthesis,SBS)
基本概念:
转录组是细胞在特定状态下所有RNA的集合,包括编码蛋白的mRNA和非编码RNA测序目标是通过逆转录将RNA转换为更稳定的cDNA,避免RNA降解
高通量测序技术通过并行处理数百万个片段,实现快速、大规模数据获取主流平台包括Illumina(二代测序)和PacBio/Nanopore(三代测序)
测序技术原理:
二代测序(SBS):这是最常用的方法以Illumina平台为例,其原理是将cDNA片段固定在芯片上,通过“桥式PCR”扩增成簇(cluster),然后加入荧光标记的dNTP(脱氧核苷酸)每次合成一个碱基时,荧光信号被捕获并转化为序列信息,实现“边合成边测序”该方法精度高、成本低,但读长较短(通常150-300 bp)
三代测序:如PacBio的SMRT技术,直接对单RNA分子测序,无需PCR扩增它利用“零模波导孔”(ZMW)原理,通过检测聚合酶合成时的实时信号,获得超长读长(可达10-15 kb),适合复杂转录本分析,但错误率略高
关键优势:与微阵列技术相比,转录组测序具有高分辨率(单核苷酸级别)、高覆盖度(几乎检测所有转录本)、宽动态范围(可量化低至几个拷贝的稀有转录本),并能检测RNA编辑、融合基因等调控事件
数据生成原理:
测序后,原始数据以FASTQ格式存储,包含序列碱基和质量分数通过比对参考基因组或组装新转录本,计算每个基因的表达量(如FPKM或TPM值),揭示差异表达
二、转录组测序的步骤
转录组测序流程分为“湿实验”(wet-lab)和“干实验”(dry-lab)两部分,从样本处理到数据分析共需7个主要步骤不同证据对步骤描述略有差异(如RNA片段化顺序),但整体一致以下是详细解析:
RNA提取:
从细胞或组织(如肿瘤、植物叶片)中提取总RNA,常用试剂盒(如TRIzol)或酚/氯仿法目标是获得高纯度RNA,避免DNA、蛋白质污染样本要求严格:细胞数≥1×10⁷、组织量≥1g、RNA总量≥10μg、浓度≥100 ng/μl
RNA质量检测:
评估RNA完整性、纯度和浓度:
完整性:使用生物分析仪(Bioanalyzer)或凝胶电泳检测RNA降解程度,RIN值(RNA Integrity Number)>7为合格
纯度与浓度:通过NanoDrop或Qubit测量A260/A280比值(理想值1.8-2.0)和浓度,确保无杂质
RNA处理与cDNA合成:
RNA富集与片段化:总RNA需富集mRNA(如使用oligo-dT磁珠捕获polyA尾),或直接使用总RNA随后,RNA被片段化(高温或酶切),使片段长度适宜测序(通常200-500 bp)
逆转录为cDNA:用逆转录酶和随机引物/寡核苷酸引物,将RNA转录为双链cDNA此步骤关键,需避免引入偏差
rRNA去除:针对总RNA样本,需通过杂交或磁珠法去除核糖体RNA(rRNA),减少非目标序列干扰
文库制备:
将cDNA加工为测序文库:
末端修复与加尾:修复cDNA片段末端,添加“A”尾(A-tailing)以连接接头
接头连接:添加测序平台特异性接头(adapter),包含索引序列(barcode)用于样本区分
PCR扩增:通过PCR富集文库,增加cDNA量常用试剂盒如Illumina TruSeq或NEBNext
文库质检:再次用Qubit或生物分析仪检测文库浓度和片段大小,确保合格
高通量测序:
文库加载到测序平台(如Illumina HiSeq或NovaSeq),进行并行测序
桥式PCR扩增:在芯片上通过PCR生成cDNA簇,每个簇代表一个片段
边合成边测序:加入荧光dNTP,逐碱基合成并捕获信号,生成原始序列数据(reads)
输出数据为FASTQ文件,包含序列和碱基质量分数
生物信息学分析:
这是核心“干实验”步骤,通过软件处理原始数据:
数据预处理:
质量控制:使用FastQC检查数据质量,剔除低质量reads
去接头与修剪:用工具如Cutadapt移除测序接头和低质量碱基,避免比对错误
序列比对与定量:
比对参考基因组:用STAR或HISAT2将reads比对到参考基因组(如人类GRCh38),识别外显子、内含子连接位点
基因定量:计算每个基因的表达量(如read counts),工具包括HTSeq或featureCounts
差异表达分析:
使用统计软件(如edgeR或DESeq2)比较不同条件(如正常vs肿瘤)的基因表达差异,基于负二项分布模型处理技术变异
高级分析:
新转录本发现:组装未注释转录本(如用Cufflinks)
功能注释:通过GO(Gene Ontology)或KEGG分析基因功能富集
结果解释与应用:
整合数据生成报告,揭示基因表达模式、调控机制(如可变剪接或融合基因),应用于疾病标志物发现或药物靶点筛选
三、总结与重要性
转录组测序通过结合分子生物学和高通量测序,实现了对转录组的全面“快照”其原理以SBS技术为核心,步骤从样本准备到数据分析环环相扣,需严格质量控制随着技术发展(如单细胞测序),它已成为基因功能研究、精准医疗和生物工程的基石,未来将在个性化医疗和合成生物学中发挥更大作用