tcga geo去批次效应怎么做？老手教你避开数据清洗大坑-上海农业品牌发展有限公司

做生信分析这几年，最头疼的往往不是跑代码，而是处理那些乱七八糟的公共数据。特别是TCGA和GEO这两大数据库，数据量大是好事，但批次效应就像个隐形杀手，稍微不注意，你的差异分析结果就能跑偏十万八千里。今天不整那些虚头巴脑的理论，就聊聊怎么把TCGA和GEO数据揉在一起，还能保证结果靠谱。

先说个实话，很多人一上来就想着用高级算法，什么Harmony、Seurat啥的，但对于bulk RNA-se数据，尤其是TCGA这种临床样本，简单粗暴往往更有效。你想想，TCGA的数据虽然统一，但不同中心测序时间不同，GEO的数据更是来自全球各地，平台、试剂、甚至操作人员的习惯都不一样。这些差异混在一起，不处理批次，后面做的所有生存分析、通路富集，基本都是在猜谜。

第一步，得先摸清家底。别急着下载数据，先去GEO官网看看每个GSE系列下面的样本信息。重点看什么？看样本的元数据。有没有标注测序平台？有没有标注处理时间？如果元数据里连个批次信息都没有，那你只能靠聚类图来反推。这时候，画个PCA图或者热图，把样本按来源分组，如果不同来源的样本在图上分得清清楚楚，那批次效应就实锤了。

第二步，数据预处理要干净。这一步很多人容易忽略，觉得标准化随便选个方法就行。其实不然。对于TCGA数据，通常用的是FPKM或者TPM，但为了和GEO的raw count对比，最好统一转成log2转换后的表达量。注意，这里有个坑，如果数据里有0值，直接log会报错，记得加个极小值，比如log2(x+1)或者log2(x+0.5)，这个细节决定了你能不能顺利跑下去。

第三步，才是重头戏，去批次。这里强烈推荐ComBat算法，它是基于经验贝叶斯框架的，对大多数情况都管用。R语言里有sva包，几行代码就能搞定。但要注意，ComBat虽然厉害，但它假设批次效应是加性的，如果有些非线性效应，效果可能打折。另外，使用ComBat前，一定要把生物学变量（比如癌症分期、性别）作为协变量放进去，不然算法可能会把真实的生物学差异也当成批次效应给抹平了，那就得不偿失了。

第四步，验证效果。去完批次后，别急着做下游分析，先画个PCA图看看。如果不同来源的样本现在混在一起了，且没有明显的聚类分离，说明去批次成功。这时候再结合临床信息，看看样本是否按疾病状态分开，这才是我们想要的结果。如果还是分开了，那可能得检查下协变量设置对不对，或者试试其他算法如RUVseq。

最后，得提醒一句，去批次不是万能药。如果你的样本量太小，或者批次差异大到和生物学差异差不多，那任何算法都救不了你。这时候，最好的办法可能是只保留同一批次的数据，或者在讨论部分诚实地说明局限性。做科研嘛，诚实比完美的数据更重要。

很多新手朋友问我，为什么我的火山图看起来那么乱？多半就是批次没处理好。数据清洗虽然枯燥，但它是地基。地基打不好，楼盖得再高也塌。希望这篇分享能帮大家在TCGA和GEO数据整合的路上少踩点坑。毕竟，咱们做分析的，最终目的不是为了炫技，而是为了找到真正的生物学意义。

本文关键词：tcga geo去批次