10 “理想”scRANA-seq流程

10.1 实验设计

  • 避免混淆生物效应和批次效应(Figure 10.1)
    • 如果可以,同一实验多个条件
    • 每个条件多次重复,如果可以,不同条件重复一起执行
    • 统计不能完全校正完全混乱的实验!
  • 唯一分子标识符(UMI)
    • 大大降低数据中的噪音
    • 可能会降低基因检测率
    • 丢失剪切信息
    • 使用更长的UMIs(~10bp)
    • 使用UMI-tools校正测序误差
  • Spike-ins
    • 有助于质量控制
    • 可能对标准化read counts很有用
    • 可用于近似细胞大小/ RNA含量(如果与生物学问题相关)
    • 通常表现出比内源基因更高的噪音(移液错误,混合物质量)
    • 需要更深的测序才能获得每个细胞足够的内源性reads
  • 细胞数量 vs Read深度
    • 基因检测平台每个细胞1百万reads数
    • 检测转录因子(调节网络)需要测序深度神和最敏感的protocol(比如Fluidigm C1)
    • 细胞聚类和细胞类型鉴定受益于大量细胞,并且不需要高测序深度(每个细胞约100,000个reads)
Appropriate approaches to batch effects in scRNASeq. Red arrows indicate batch effects which are (pale) or are not (vibrant) correctable through batch-correction.

Figure 10.1: Appropriate approaches to batch effects in scRNASeq. Red arrows indicate batch effects which are (pale) or are not (vibrant) correctable through batch-correction.

10.2 reads处理

10.3 准备表达矩阵

  • 细胞质控
    • scater
    • 考虑:mtRNA,rRNA,spike-ins(如果有的话),每个细胞检测到的基因数,每个细胞的总reads/分子数
  • 文库大小标准化
  • 校正批次效应

10.4 生物学解释

  • 特征选择
  • 聚类和识别marker基因
    • \(\le 5000\) 细胞 : SC3
    • \(>5000\) 细胞: Seurat
  • Pseudotime
    • 不同时间点: TSCAN
    • 小数据集/未知数量的分支: Monocle2
    • 大型连续数据集: destiny
  • 差异表达
    • 少量细胞和少数组 : scde
    • 批次效应的重复实验 : 混合/线性模型
    • 平衡的批次: edgeRMAST
    • 大数据集: Kruskal-Wallis检验 (一次所有group), or Wilcox-test (一次比较2个group).