搞懂geo基因表达数据怎么下？老手带你避开那些坑-上海农业品牌发展有限公司

干了七年生信分析，说实话，每次看到新手拿着GEO数据库里那几百个样本直接跑差异分析，我就想拍桌子。真的，太急躁了。GEO（Gene Expression Omnibus）是个宝库，也是个垃圾场，里面什么乱七八糟的数据都有。很多刚入行的朋友，觉得下载下来FDR小于0.05就是真理，结果做出来的图连导师都看不懂，或者根本复现不了别人的结果。今天我不讲那些虚头巴脑的理论，就聊聊怎么从GEO里扒出真正能用的基因表达数据，顺便吐吐槽，省得大家走弯路。

先说个真事。去年有个哥们找我救火，说他的课题卡住了，差异基因只有5个，P值还大得离谱。我一看他的原始数据，好家伙，直接拿的是GPL平台上的探针ID，连背景基因都没过滤，还混进了几个批次效应严重的样本。这种低级错误，在行外人眼里可能觉得“数据都下了，还能有错？”但在我们这行，这就是自杀。

所以，第一步，别急着点Download。你得先看清这个数据集的Metadata（元数据）。很多人连Series Matrix文件里的Sample属性都不看，就敢把样本分组。比如，你研究的是癌症，结果人家数据里混进了正常组织，但标注的是“Tumor”，其实那是癌旁组织，甚至有的标注错误，直接导致你的生物学结论南辕北辙。我见过最离谱的，把不同亚型的白血病样本混在一起算均值，这哪是分析，这是算命。

第二步，下载原始CEL文件还是Matrix文件？这是个永恒的话题。如果你只是想快速看看趋势，Matrix文件确实快，毕竟人家作者已经预处理过了。但如果你要做严谨的科研，尤其是涉及多批次合并的时候，我强烈建议你下载原始CEL文件。为什么？因为不同批次的数据，标准化方法不一样，直接合并就是灾难。用R语言的affy或oligo包重新做RMA标准化，虽然慢点，但心里踏实。这一步很繁琐，需要一点Linux基础或者R语言功底，但为了数据质量，值了。

第三步，也是最容易被忽视的，就是探针到基因的映射。GEO里很多老数据用的是Affymetrix芯片，一个基因对应好几个探针，有的探针甚至对应多个基因。如果你直接取平均值，可能会把噪声放大。这时候，你需要用biomaRt或者专门的注释包，把探针ID转换成最新的Gene Symbol，并且过滤掉那些没有注释或者注释为“unknown”的探针。别嫌麻烦，这一步做不好，后面所有的热图、火山图都是废纸。

第四步，批次效应校正。这是很多新手翻车的地方。如果你合并了多个GSE数据集，比如GSE123和GSE456，一定要检查批次效应。用PCA图一看，如果样本是按数据集聚类的，而不是按表型，那你完了。这时候得用ComBat或者limma里的removeBatchEffect函数。我有一次帮客户处理数据，校正前P值显著的一堆基因，校正后全都不显著了，气得他差点把键盘砸了。但这才是真实的生物学情况，而不是算法制造的假象。

最后，我想说，GEO基因表达数据虽然公开免费，但用好它需要极大的耐心和细心。别指望一键出图就能发文章。每一步操作都要有记录，代码要开源，这样审稿人才会信服。记住，数据不会撒谎，但处理数据的人会。希望这些踩坑经验能帮你少熬几个通宵。

本文关键词：geo基因表达数据