别瞎折腾了！GEO和TCGA差异表达不一样，这坑我踩过才懂

发布时间：2026/6/17 5:34:45

别瞎折腾了！GEO和TCGA差异表达不一样，这坑我踩过才懂

做生信这行十五年，见多了刚入门的小伙伴拿着代码跑数据，最后对着结果发呆。

最让人头秃的问题，往往不是代码报错，而是数据本身。

很多新手拿着GEO的数据，直接套用TCGA的分析流程。

结果发现，哎？怎么结果对不上？

甚至有的朋友问我，是不是我代码写错了？

其实真不是代码的问题，而是你没搞懂一个核心逻辑。

GEO和TCGA差异表达不一样，这是由它们的数据本质决定的。

先说TCGA，它是个大家伙，样本量大，临床信息全。

但它的测序平台相对统一，主要是RNA-Seq。

数据干净，标准化程度高，只要批次效应处理得当，结果通常很稳。

再看GEO，那简直就是个“大杂烩”。

里面什么平台都有，Affymetrix, Illumina, 甚至老掉牙的Agilent。

更别提那些来自不同实验室、不同时间、不同操作员的样本。

这就导致GEO数据的异质性极高。

如果你直接用TCGA那套标准的差异分析流程去跑GEO。

大概率会得到一堆毫无意义的基因列表。

或者，你发现筛选出来的基因，跟文献里说的完全两码事。

这时候，千万别急着改代码，先看看数据源。

GEO的数据，往往需要更精细的预处理。

比如，探针映射到基因ID这一步，就经常出问题。

一个探针可能对应多个基因，或者多个探针对应一个基因。

如果不处理好，差异表达的结果就会偏差很大。

还有批次效应，在GEO里简直是家常便饭。

不同批次的样本，可能因为试剂不同、测序深度不同，导致整体表达水平偏移。

这时候，用ComBat或者SVA去校正批次效应，是必须的步骤。

而在TCGA里，虽然也有批次，但通常已经经过初步处理。

所以，GEO和TCGA差异表达不一样，真的很正常。

关键在于，你怎么去适配这些数据。

对于GEO，建议先做PCA分析，看看样本聚类情况。

如果同一组的样本没聚在一起，说明批次效应或者分组有问题。

这时候，强行做差异分析，就是在制造噪音。

另外，GEO里的样本量往往比较小。

小样本做差异分析，统计功效不足，假阳性率会很高。

这时候，不能只看P值，还要看Fold Change。

最好结合多个数据集，做Meta分析，或者取交集。

这样出来的结果，才更有说服力。

而TCGA的优势在于，它有生存数据。

你可以直接做生存分析，看看差异基因跟患者预后的关系。

这在GEO里，往往很难实现，因为临床信息不全。

所以，别总想着用一个流程通吃所有数据。

要根据数据的特点，调整你的分析策略。

GEO数据脏，就要多清洗；TCGA数据全，就要多挖掘临床关联。

记住，GEO和TCGA差异表达不一样，不是bug，是feature。

理解了这个feature，你的生信分析才能从“跑代码”进阶到“讲故事”。

最后，送大家一句话。

数据不会撒谎，但解读数据的人会。

多看看原始数据，多想想生物学意义，比盲目追求显著性更重要。

希望这篇干货，能帮你少走弯路。

毕竟，头发掉得越少，发文章越快。

共勉。