别被GEO微阵列数据忽悠了！老鸟带你避开那些坑，省下几万块冤枉钱-上海农业品牌发展有限公司

做生物信息分析这几年，我见过太多人拿着GEO微阵列数据当宝贝，最后却因为在预处理上栽了跟头，导致整个课题推倒重来。这篇东西不整虚的，直接告诉你怎么从GEO里扒拉出靠谱的数据，怎么清洗能省一半时间，以及那些没人愿意告诉你的隐形成本。

咱们干这行的都知道，GEO数据库是个宝库，也是个雷区。很多刚入行的兄弟，上去就下载原始CEL文件，或者更惨，直接下载处理好的表达矩阵。我有个客户，前年为了省那点算力钱，没做标准化，直接拿不同批次的数据做差异分析，结果P值好看得像假的，复现率几乎为零。这就是典型的“垃圾进，垃圾出”。

先说数据源的选择。GEO里动辄几千个样本，你不可能全下。得学会看Series Record里的平台信息。比如GPL570这个平台，虽然老，但文献多，背景清楚。你要是拿到个冷门平台，连probe到gene的映射表都找不到，那这数据基本就是废的。我常跟学生说，选平台就像选老婆，得选大家公认的，别整那些花里胡哨的。

接下来是清洗，这是最耗时的。很多人以为下载完就能跑DESeq2或者limma，大错特错。微阵列数据最大的坑就是批次效应。你想想，一批样本是2015年在北京做的，另一批是2018年在上海做的，仪器不同、试剂不同，甚至操作员的性别不同，都可能带来巨大的技术偏差。这时候必须用ComBat或者SVA去校正。我见过一个案例，校正前两个组看起来差异巨大，校正后P值直接飘到0.05以上，之前的结论全崩了。所以，别嫌麻烦，这一步不能省。

再说价格。现在市面上有些外包公司，报价低得离谱，比如几百块包干。你算算，光数据下载、探针注释、标准化、批次校正，再出图，人工成本都不止这个数。他们要么是用脚本跑完就交差，要么就是拿别人的数据改改名字。真正的分析，得看QC图，看PCA图，看分布箱线图。如果对方连这些图都不给你看，直接甩个Excel表格，赶紧跑，别回头。

我去年帮一个博士处理数据，他之前找的一家机构做的，结果发现探针注释全错，把非特异性探针都算进去了。我们重新做了annotation，用最新的BiocManager包，把过时的探针过滤掉，最后差异基因数量从2000多个变成了300多个，这才是真实情况。虽然数量少了，但生物学意义更清晰，审稿人也认可。

还有，别迷信单一数据集。最好能找到同一个实验室、同一个平台的多组数据，或者至少是不同实验室但同一疾病的数据集进行验证。单一数据集容易过拟合，多数据集整合分析，结论才站得住脚。

最后提醒一句，GEO数据虽然免费，但时间成本极高。如果你不是专门搞生信的，建议找个靠谱的合作伙伴，或者自己把流程摸透。别为了省那点分析费，最后耽误了毕业或者发文章。数据清洗这一步，宁可慢点，也要稳。毕竟，生物学的真相，往往就藏在那几个被忽略的异常值里。

本文关键词：GEO微阵列数据