别瞎折腾了，geo和tcga的数据可以混用，但得这么搞-上海农业品牌发展有限公司

昨天有个兄弟私信我，说手里有一堆TCGA的泛癌数据，想结合一些特定的基因表达量去做生存分析。他问我能不能直接拼在一起跑模型。我一看他那数据，差点没忍住笑出声。这问题太典型了，好多刚入行搞生信的朋友，一上来就想搞大事情，把不同来源的数据硬凑一块儿，结果跑出来的P值比我的头发还少。

咱们先说结论：geo和tcga的数据可以混用，但这事儿没那么简单。不是打开Excel，复制粘贴就完事儿了。你要是这么干，后面全是坑。

我上个月刚帮一个客户做过类似的项目。他是做肺癌的，手里有个TCGA-LUAD的数据集，样本量挺大，但临床信息缺失严重。然后他在GEO上搜了几个小样本的芯片数据，想补充一下。听起来很美好对吧？结果呢？批次效应大得吓人。

你想想，TCGA主要是测序数据，也就是RNA-Seq，而GEO里很多老数据是芯片数据，也就是Microarray。这俩技术平台都不一样，测出来的数值能直接比吗？显然不能。就像你拿尺子量长度，拿秤称重量，虽然都是物理量，但单位都不一样，硬加在一起，那叫啥？那叫胡闹。

我见过太多人，直接把原始数据拿来，也不做标准化，也不做批次校正，就扔进R语言里跑个limma或者DESeq2。出来的结果，差异基因多到数不过来，但真正能复现的没几个。这就导致你在写文章或者做汇报的时候，被审稿人或者老板问得哑口无言。

那到底该咋整？我分享几个我实战中总结出来的土办法，虽然不高级，但管用。

第一，数据格式得统一。TCGA的数据通常是count值或者FPKM，GEO的数据可能是CEL文件转换后的表达矩阵。你得先把它们都转成log2转换后的标准化表达量。这一步不能省，不然量级差太大，模型根本收敛不了。

第二，批次效应校正才是核心。我一般用ComBat或者Harmony这两个工具。ComBat适合处理已知批次的情况，Harmony在处理高维数据时表现更好。我上次就是用Harmony把TCGA和GEO的数据拉到一个空间里，效果比ComBat好不少。你看那个PCA图，混在一起之前，两个数据集分得清清楚楚，像两条平行线；校正之后，它们重叠在一起，这才叫可以混用。

第三，验证验证再验证。别光看校正后的图好看就完事儿了。你得挑几个关键基因，看看在两个数据集中趋势是不是一致。如果TCGA里上调的基因，在GEO里也上调，那这数据混得就没问题。如果有反着来的，那你得仔细查查是不是样本质量问题，或者注释搞错了。

这里有个真实案例。有个做乳腺癌的，他把TCGA-BRCA和GEO里的GSE96058混用。一开始没做校正，跑出来的生存曲线乱七八糟。后来我让他用ComBat-SVA做了校正，还去除了低变异基因。最后选出来的3个基因，在独立队列里验证通过了，HR值都在1.5以上，P值小于0.01。这才是靠谱的结果。

所以，geo和tcga的数据可以混用，但前提是你要尊重数据的特性。别偷懒，别想着一键搞定。每一步都要检查，每一步都要有依据。

最后给点真心话。搞生信这行，工具再强大，也替代不了你对数据的理解。多看看原始数据，多查查文献，别光盯着代码跑。遇到不懂的，多去论坛逛逛，看看别人怎么解决的。

如果你还在为数据整合头疼，或者不知道选哪种校正方法合适，不妨聊聊。咱们可以一起看看你的数据分布，找找最适合你的方案。毕竟，解决问题才是硬道理。