主要分析步骤:
原始数据处理与质控:
原始测序文件(FASTQ格式)。
步骤:
关键质控指标:
输出: 过滤掉低质量细胞/基因后的干净表达矩阵。
数据标准化:
目的: 消除技术偏差(如测序深度差异),使细胞间表达量可比。
常用方法: LogNormalize(Seurat), SCTransform(正则化负二项回归 - Seurat), 或基于深度的缩放因子(如Scanpy)。
特征选择:
数据缩放与线性降维:
细胞聚类:
非线性降维与可视化:
细胞类型注释:
差异表达分析:
目的: 比较不同细胞群(如不同细胞类型、处理组 vs 对照组、疾病 vs 健康)之间基因表达的差异。
方法: 专门为单细胞数据设计的统计方法(如MAST, Wilcoxon rank-sum test, DESeq2 - 需谨慎使用)。
下游分析:
轨迹推断: 重建细胞在连续过程(如分化、激活、细胞周期)中的动态变化(如Monocle3, PAGA, Slingshot)。
细胞通讯分析: 预测不同细胞类型之间通过配体-受体对的相互作用(如CellChat, CellPhoneDB)。
功能富集分析: 对差异表达基因或特定细胞群的基因集进行通路、功能注释(如GO, KEGG, GSEA)。
整合分析: 合并多个样本或批次的数据,以进行比较或增加统计功效(如Harmony, Seurat的IntegrateData, BBKNN, scVI)。
亚群再分析: 对感兴趣的特定细胞类型进行更精细的亚聚类和分析。
常用工具:
Seurat (R): 目前最流行、功能最全面的工具包。
Scanpy (Python): 功能强大且灵活的Python生态系统工具包。
Cell Ranger (10x Genomics): 官方配套软件,处理10x数据从原始FASTQ到表达矩阵。
其他:Monocle (R - 轨迹), CellPhoneDB (Python - 通讯), SCANPY (Python), Scater/Scran (R), Bioconductor生态等。
总结: 单细胞数据分析是一个迭代探索的过程,从原始数据出发,经过严格质控、标准化、降维、聚类、注释,最终通过各种下游分析揭示细胞异质性、动态变化和功能关系,从而深入理解组织、发育和疾病的复杂性。选择合适的工具和参数,并结合生物学背景知识进行解读至关重要。