别被单细胞数据骗了！geo 单细胞测序数据分析实战避坑指南，老鸟的血泪教训-上海农业品牌发展有限公司

拿到 GEO 上的单细胞测序原始数据，第一反应是不是想直接跑流程？别急，先停下来喝口水。我在这行摸爬滚打十五年，见过太多人拿着 TMM 或 TPM 去跑 Seurat 或者 Scanpy，最后出来的聚类图乱七八糟，连自己都不信。今天不聊那些高大上的算法原理，就聊聊怎么从 GEO 里“淘”出真正有用的单细胞数据，以及怎么避开那些让人头秃的坑。

很多人觉得 GEO 是个宝库，随便搜个关键词就能找到完美数据集。但现实是，GEO 上的数据质量参差不齐，尤其是单细胞数据。我去年帮一个做肿瘤免疫的学生找数据，他想要肺癌的 scRNA-seq 数据。他在 GEO 上搜了一堆，下载下来一看，有的样本甚至没有细胞条形码信息，有的虽然有条形码，但 UM 数少得可怜，根本没法做后续分析。这种数据，你拿去分析，除了浪费服务器资源，还能得到什么？

这里有个真实的案例。有个做阿尔茨海默症研究的团队，从 GEO 下载了一个公开数据集，直接拿来做差异表达分析。结果发现，他们关注的几个关键基因，在两组样本中表达量差异极小，P 值也不显著。后来我们重新检查原始数据，发现是因为他们在预处理时，没有正确过滤掉低质量细胞，也没有进行批次效应校正。那个数据集里，有一部分细胞明显是双细胞（doublets），还有一部分是死细胞碎片。这些噪音如果不剔除，直接分析，得出的结论完全是错的。

所以，做 geo 单细胞测序数据分析，第一步不是跑代码，而是“看”。你要看 SRA 文件，看 Sample Characteristics，看 Platform。如果平台是 10x Genomics，你要看它用的是 v2 还是 v3 芯片，这直接影响你后续比对参考基因组的选择。如果平台是 Smart-seq2，那你要关注它的覆盖度，因为 Smart-seq2 的全长覆盖特性，让它更适合做可变剪接分析，而不是单纯的细胞聚类。

再说说预处理。很多新手喜欢用现成的流程，一键运行。但我觉得，每一步都要自己过一遍。比如，过滤细胞的时候，线粒体基因比例是一个重要指标。一般来说，线粒体基因比例超过 10%-20% 的细胞，质量可能有问题。但这个阈值不是绝对的，要看你的组织类型。如果是心脏肌肉细胞，线粒体比例本身就高，你不能一刀切。还有，UMI 数的分布，你要画个图看看，是不是有明显的双峰或者长尾。如果有，那可能意味着存在严重的技术噪音。

还有一个容易被忽视的点，就是批次效应。GEO 上的数据，很多是不同实验室、不同时间、不同平台产生的。把这些数据合并在一起分析，如果不做批次效应校正，出来的结果可能完全是批次差异，而不是生物学差异。我见过有人直接把三个不同实验室的数据拼在一起做 PCA，结果发现聚类完全按照实验室来源分，而不是按照疾病状态分。这就是典型的批次效应干扰。

最后，我想说的是，数据分析只是最后一步，前面的数据获取和预处理才是关键。不要指望有一个通用的流程能解决所有问题。每个数据集都有自己的特点，你需要根据具体情况调整策略。比如，对于稀疏性很高的数据，可能需要用更复杂的 imputation 方法；对于细胞类型复杂的数据，可能需要用更精细的聚类算法。

总之，做 geo 单细胞测序数据分析，要有耐心，要有批判性思维。不要盲目相信工具，要相信自己的眼睛和逻辑。多看看原始数据，多查查文献，多和同行交流。只有这样，你才能从海量的数据中，挖掘出真正有价值的生物学信息。别急着发文章，先把基础打牢。毕竟，垃圾进，垃圾出。你希望你的分析结果，是垃圾吗？