转录组测序:揭秘生命活动的"基因密码本"
转录组测序(Transcriptome Sequencing,简称RNA-Seq)是一种全面解析生物体在特定状态下所有RNA分子的技术它能精确捕获基因表达动态、发现新转录本,并揭示RNA结构变异,已成为现代生命科学的核心工具下面从技术原理、实验流程和数据分析三部分展开科普
一、技术原理与优势
转录组指特定细胞在某一状态下所有RNA的集合,包括mRNA和非编码RNA(如miRNA、lncRNA等)与传统微阵列技术相比,RNA-Seq具有革命性优势:
高分辨率:单核苷酸精度,避免交叉杂交误差;
无偏好性:无需预先设计探针,可检测未知转录本;
宽动态范围:同时定量高/低丰度转录本(从几个到数十万拷贝);
多维度分析:支持可变剪接、RNA编辑、融合基因等复杂研究
二、实验流程详解
1.样本制备与RNA提取
样本要求:细胞(≥1×10⁷)、动物组织(≥1g)、植物组织(≥2g)或总RNA(≥10μg,浓度≥100 ng/μl)
RNA提取:使用试剂盒或酚/氯仿法提取总RNA,重点保持RNA完整性
2.RNA质量检测
通过电泳、Bioanalyzer评估RNA完整性(RIN值>7),NanoDrop/Qubit检测纯度(OD260/280≈2.0)
3.mRNA富集与片段化
真核生物:用oligo(dT)磁珠捕获带polyA尾的mRNA;
原核生物:需去除rRNA(占RNA总量90%以上)片段化:将mRNA随机打断至200-700 bp(高温/酶解法)
4.cDNA合成与文库构建
反转录:用随机六聚体引物合成cDNA第一链
第二链合成:加入dUTP标记链方向(链特异性建库)
文库制备:末端修复、加A尾、连接测序接头,PCR扩增(图1示意流程)
注:需UMI(唯一分子标识)标记以消除PCR重复偏好
5.上机测序
主流平台:Illumina NovaSeq(短读长、高通量)、PacBio/Nanopore(长读长);
数据量:通常≥10 Gb/样本,深度≥30M reads
三、生物信息分析流程
1.数据质控与清洗
过滤低质量碱基(Q<20)、接头污染、N率过高序列
工具:FastQC、Trimmomatic
2.序列比对与组装
有参考基因组:
⠀•使用HISAT2/STAR将reads比对至参考基因组
⠀•识别外显子连接点,构建转录本异构体
无参考基因组:
⠀•从头组装(如Trinity软件)
基于de Bruijn图拼接k-mer
⠀•评估组装质量(N50、完整性)
3.转录本定量与差异分析
定量:用Salmon/RSEM计算基因表达量(TPM/FPKM)
差异基因:edgeR/DESeq2基于负二项分布模型筛选(需生物学重复)
4.高级分析
功能注释:GO(基因功能)、KEGG(通路富集)
结构变异:ASprofile分析可变剪接,CIRCexplorer识别环状RNA
分子标记开发:SSR/SNP位点挖掘
四、应用场景
基础研究:胚胎发育、抗逆机制
医学:癌症biomarker发现、药物靶点筛选;
农业:作物抗病基因挖掘