tcga数据库GeO数据库不同，老鸟掏心窝子告诉你别踩坑-上海农业品牌发展有限公司

做生信分析这六年，我见过太多刚入行的研究生，拿着代码跑完结果就在那儿发呆，或者更惨的是，直接拿着TCGA的数据去跟GEO的数据混在一起分析，最后被导师骂得狗血淋头。今天咱不整那些虚头巴脑的学术定义，就聊聊这两个数据库到底有啥tcga数据库GeO数据库不同，希望能帮兄弟们省点头发。

先说TCGA，全称The Cancer Genome Atlas。这玩意儿说白了就是美国国家癌症研究所搞的一个“国家队”项目。它的核心就一个字：全。从基因组、转录组到表观遗传，甚至临床信息，给得那叫一个扎实。我有个学生，之前做乳腺癌预后模型，直接用TCGA数据，因为样本量大，而且临床随访信息特别详细，做出来的Kaplan-Meier曲线漂亮得很，P值也好看。但是！TCGA的数据有个硬伤，就是批次效应虽然被处理过，但毕竟不同测序平台、不同时间点，还是会有细微差别。而且，TCGA主要聚焦在癌症，如果你研究的是罕见病或者非癌性疾病，那基本没戏，去了也是白去。

再说说GEO，Gene Expression Omnibus。这地方就像是生信界的“杂货铺”或者“大杂烩”。里面什么数据都有，正常的、异常的、小鼠的、细胞的、各种测序平台的。GEO的优势在于灵活和海量，你想找什么冷门数据，大概率能在里面翻到。但劣势也明显，那就是“乱”。很多数据是实验室自己上传的，格式五花八门，元数据（metadata）写得乱七八糟，有的甚至只有几个样本，统计效力根本不够。我之前帮一个朋友处理GEO数据，光清洗数据就花了两天，因为原始数据里混进了不同物种的样本，差点把整个分析搞崩。

那么，tcga数据库GeO数据库不同到底体现在哪？最直观的就是数据质量和标准化程度。TCGA是经过严格质控的“精装房”，拎包入住就行；GEO则是“毛坯房”，甚至可能是“危房”，你得自己装修，还得小心别踩到钉子。

举个真实的例子。去年有个做肺癌免疫治疗的研究，有人直接用GEO里的一个芯片数据集，样本量才30多例，结果跑出来一堆差异基因，看着挺热闹。但当他把同样的基因集放到TCGA的大队列里验证时，发现相关性几乎为零。为啥？因为GEO那个小数据集可能存在严重的批次效应或者人群偏差，而TCGA代表了更广泛的人群特征。这就是为什么我们常说，GEO适合探索性分析，找靶点；TCGA适合验证性分析，看普适性。

还有个坑，就是临床信息的完整性。TCGA的临床数据是结构化最好的，生存时间、分期、分级都有。GEO里的临床数据，很多时候得你自己去扒文献，或者联系作者要，有的作者压根不回复，你就只能干瞪眼。

所以，到底怎么选？我的建议是，如果你做的是癌症相关的机制研究，且需要大样本验证，TCGA是首选。如果你是在探索新的生物标志物，或者研究非癌疾病，GEO是你唯一的金矿，但你要做好“淘金”的准备，清洗数据的过程绝对痛苦。

别总想着偷懒，直接拿现成的数据跑个相关性就发文章，现在审稿人眼睛毒得很。一定要搞清楚tcga数据库GeO数据库不同的本质，根据你的研究目的去选。数据是死的，人是活的，别被数据牵着鼻子走。

最后唠叨一句，做生信，心态要稳。遇到数据清洗报错，别急着删库跑路，那是系统在教你做人。多看看原始文献的方法部分，比看那些营销号文章强一万倍。希望这篇大白话能帮到你，少走弯路，早点毕业。

tcga数据库GeO数据库不同，老鸟掏心窝子告诉你别踩坑

相关新闻

别再盲目下载TCGA数据了，结合Geo数据库才是王道

搞生信别瞎忙！tcga和geo数据库介绍让你少走弯路

搞了9年SEO，终于把tcga geo数据表达差值这关过了，全是血泪经验

geo隐形眼镜哪个好看 别再瞎买了，这篇干货救你的眼睛和钱包

别再交智商税了！geo引擎优化实战指南教你怎么在泥坑里爬出来

找geo引擎厂家别光看报价，这3个坑踩了直接返工，血泪经验全在这

做了7年SEO老鸟掏心窝子：Geo音质到底怎么调才不刺耳？

别被割韭菜了，聊聊geo音乐制作人的真实生存现状

geo已停止工作怎么办？别慌，老手教你5步搞定，亲测有效

geo隐形眼镜哪个好看别再瞎买了，这篇干货救你的眼睛和钱包