GEO数据库网址为https://www.ncbi.nlm.nih.gov/geo/,我们可以在数据库中搜索符合条件的数据集。我们以“lung
cancer”为例(图1):
图1:GEO主页
点击 Search
后进入搜索结果页面(图2),左侧可以对搜索结果进行进一步过滤, Organism
可以指定物种名称,本次我们选择Homo sapiens;Study type可以指定数据的类型,如基因表达量数据,甲基化数据,基因变异数据等,本次我们选择基因表达量数据“Expression
profiling by array”和“Expression profiling by high throughput sequencing”; Author
可以指定数据集的上传作者; Attribute
name
可以指定样本为组织或细胞系等类型; Publication dates 指定数据上传的时间范围。点击每个过滤项底部的
Customize
..
对相应的选项进行条件添加,条件显示在数据库后,再次点击该条件,使其显示√,表明目前搜索结果已进行该条件过滤。
搜索结果中,每一个结果内容代表一个数据集,点击可查看该数据集详细的实验及测序处理信息。若一个数据集展示了
Analyze with GEO2R
字样,表明该数据集支持在线分析差异表达基因,为我们需要的数据集。若无该标记,表明该数据不支持在线分析,需要下载结果后由生信人员自行处理 。
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE237935。
进入界面后, Platforms
处表明该数据集使用了illumina NovaSeq 6000进行测序。 Samples
处展示了数据集每个样本的GEO数据库ID和样本名称,点击ID可进一步查看该样本信息,如细胞系名称,样本的实验处理方式,测序数据的处理步骤等(图3)。
图3:GSE237935数据集测序平台和样本信息
我们找到Analyze with GEO2R按钮(图4),点击进行差异分析:
在分析页面我们首先创建需要进行比较的组别,我们点击 Define groups 处,创建siCTL组和siG4组。随后依次点击每行数据集,再点击对应的组别,使该样本
Group 列显示该样本的组别名称。在
Options 处选择差异分析的校正方法,一般默认为Benjamini & Hochberg (False discovery rate)。设置P值和Log 2 fold change值,P值通常为0.05,Log 2 fold change值为两组数据基因表达量的差异倍数取2的对数,通常≥1(图5)。当一个基因在两组数据的表达量的P值小于0.05,且大于设置的Log 2 fold change值,则认为该基因在两组数据的表达量存在显著差异。此处选项是为后续差异分析作图进行基因筛选。
图5:分析参数设置
设置完成后,点击 GEO2R
处的 Analyze
,开始分析(图6)。
图6:点击按钮开始分析
分析完成后,可得到差异表达分析列表以及火山图,主成成分图,韦恩图等结果。差异表达结果中, GeneID 列为该基因的NCBI ID,padj为校正后的P值,只显示小于我们设置(0.05)的结果, Symbol 为基因名称。点击Download full table 可下载全部的分析表格结果(图7)。
将结果拷贝至EXCEL,使用筛选功能进行padj<0.05和log2FoldChange≥1筛选,得到最终的差异表达基因。
我们使用Metascape(
http://metascape.org/gp/index.html#/main/step1)
, 对差异表达基因进行富集分析。Metascape是一个在线富集分析的网站,整合了GO、KEGG、UniProt和DrugBank等多个数据库,且操作简便。
进入网站后,可以上传基因列表,或直接将基因列表粘贴后递交。基因列表格式为一个基因名称一行。也可以在右边绿色方框处下载示例文件进行测试(图8)。
图8:Metascape 分析界面
在 Step1 处上传或粘贴基因列表后,点击Submit 按钮。在Step2 处选择对应物种,本次我们选择H.sapiens。在Step3 处点击Express Analysis 按钮开始分析(图9)。
分析完成后点击 Analysis Report Page 查看分析结果(图10)。
分析结果网页展示了Metascape的结果图片及表格,包括了GO富集分析,Pathway富集分析,PPI蛋白网络互作分析等多种分型结果,点击 All in One Zip File 可下载全部的分析结果(图11)。
图11:分析结果页面
metascape_result.xlsx:分析结果的汇总表格,包含了每个基因的功能注释以及通路的富集分析结果。
AnalysisReport.pptx:分析结果的PPT,易于使用者进行分析展示。
AnalysisReport.html:分析结果的网页展示模式。
README.txt:分析结果的介绍文件,打开可以查看每个分析结果文件的意义。
图12:下载的结果文件
至此,我们零代码完成了从公共数据挖掘差异表达基因并进行功能富集分析的全部步骤。