初學者如何學習TCGA數據庫?
初學者如何學習TCGA?
在腫瘤研究領域,相信沒有人不知道The Cancer Genome Atlas (TCGA)。
TCGA是美國國家癌癥研究所(National Cancer Institute)和美國人類基因組研究所(National Human Genome Research Institute)共同監督的一個項目,旨在應用高通量的基因組分析技術,以幫助人們對癌癥有個更好的認知,從而提高對于癌癥的預防、診斷和治療能力。
作為目前最大的癌癥基因信息數據庫,TCGA的全面不僅僅體現在眾多癌型上(覆蓋33種癌癥類型,超過30000例腫瘤樣本,超過20000個基因的表達信息),還體現在多組學數據(包括基因表達數據、miRNA表達數據、拷貝數變異、DNA甲基化、SNP等)。
TCGA作為腫瘤研究中資源最豐富,數據最權威的數據庫,自然受到廣大科研工作者的深入挖掘。無數的文章脫胎于通過挖掘TCGA數據,同時也促使了不計其數的衍生的數據庫用于挖掘可視化TCGA這個巨大的資源。
壹
TCGA相關數據庫
1
綜合型數據庫
在這些不計其數的數據庫中,有那么幾個數據庫由于其超強實用的功能,為腫瘤研究者青睞,受到普遍關注。
?TCGA官方網站
官網https://portal.gdc.cancer.gov/
最權威的網站資源(數據可以無代碼下載,當數據較大時也可以通過GDCRNAtools工具包下載)
?cBioPortal
官網http://www.cbioportal.org/
一個基于TCGA數據庫,進行可視化分析的網頁,不需要代碼,里面內容十分豐富,提供了最詳細的TCGA在線分析展示。業界人稱“TCGA數據挖掘終結者”。(數據可以無代碼下載,也可以通過CGDSR工具包下載)
?Oncomine
官網
https://www.oncomine.org/resource/login.html
目前最大的癌癥基因芯片數據庫,里面不僅包含TCGA數據,還包括了其他有關的腫瘤的數據信息,非常全面(對于普通免費用戶而言,里面的TCGA數據不支持批量下載,但是其他項目中腫瘤數據可以鏈接到GEO數據庫中下載)
? GEPIA
官網http://gepia.cancer-pku.cn/
國人開發的TCGA數據庫可視化網站,方便快速可視化腫瘤與癌旁組織的基因表達量
?UCSC Xena
官網https://xena.ucsc.edu/
集合TCGA,ICGC(International Cancer Genome Consortium/國際癌癥基因組聯合體)資源大成的數據庫(數據可以無代碼下載,也可以通過UCSCXenaTools工具包下載)
?Broad GDAC Firehose
官網http://gdac.broadinstitute.org/
最人性化的TCGAR語言工具包下載,下文實例講解)
2
專一型數據庫
除上文的綜合型數據庫之外,還包括一些特異分析TCGA某一數據的數據庫,比如:
?TCGA生存分析oncolnc
官網http://www.oncolnc.org/
?基于TCGA的蛋白芯片分析神器TCPA
官網http://www.tcpaportal.org/tcpa/
?基于TCGA的甲基化神器mexpress
官網http://mexpress.be/
接下來,本文通過RTCGAToolbox這個R語言包/數據下載和分析操作簡便,向大家演示怎樣從Broad GDAC Firehose下載TCGA數據為自己所用。
貳
RTCGAToolbox操作TCGA數據
因為TCGA數據量龐大,分析的手段多樣復雜,并非所有人都可以輕松的下載與管理數據庫中的數據。RTCGAToolbox是Firehose項目科學家專門開發供科研工作者下載感興趣的TCGA level 3/4數據(將原始數據預處理后的數據量小很多的數據)的一個工具包。該包主要包括以下幾個功能:
查詢Firehose項目提供的TCGA數據的信息
下載數據
后續數據分析與可視化
安裝與加載RTCGAToolbox
1
查詢Firehose中TCGA數據
⑴ 查看腫瘤類型(以下都是腫瘤簡稱)
⑵ 查看數據庫中的更新情況
(每個日期代表著一批數據,因為TCGA數據在不斷的測序更新,所以可得到的數據也在不斷的更新,最新版的結果就會覆蓋所有TCGA中的樣本)
RTCGAToolbox可下載的數據類型包括:
RNAseqGene 來源于RNA測序的基因表達數據,原始數據
Clinical 臨床信息,包括樣本的分期,生存信息,年齡,性別等
miRNASeqGene miRNA測序數據
RNAseq2GeneNorm RNA測序的基因表達數據,標準化處理后的值
CNASNP 體細胞拷貝數變異數據
CNVSNP 生殖細胞拷貝數變異數據
CNASeq 體細胞拷貝數測序數據
CNACGH CGH芯片測序的體細胞拷貝數據
Methylation 芯片分析的甲基化數據
Mutation 基因水平的突變數據
mRNAArray 芯片分析的基因表達數據
miRNAArray 芯片分析的miRNA表達數據
RPPAArray 蛋白質芯片測序結果
2
下載TCGA數據
⑴ 下載結腸癌數據
(你可以下載自己感興趣的任何腫瘤類型,此處自己選擇結腸癌)
代碼中:
getFirehoseData() 函數是該包最核心的函數。通過此函數,我們可以從Firehose中下載我們感興趣的數據
dataset="COAD" 選擇自己感興趣的腫瘤類型
runDate="20160128" 數據的版本號
forceDownload=TRUE 設置分析的時候重新下載數據
clinical=TRUE 獲臨床數據(臨床數據默認值TRUE,其他數據類型默認值FALSE)
Mutation=TRUE 獲取突變數據
當然,你可以選擇任何自己感興趣的數據類型下載,此處僅下載結腸癌的臨床信息與突變數據。(但是不是所有的TCGA數據在Firehose中的數據都可以下載,有的數據還是需要權限,具體可以下載的數據列表如下圖,最新版的可供下載的數據信息)
⑵ 數據下載結果
可以看到下載的數據中包含三種類型的數據:臨床信息,體細胞拷貝數變化情況,基因突變信息(GISTIC:用于在腫瘤的眾多SCNA/somatic copy number alteration中選擇出具有統計意義的SCNA的方法)
叁
數據簡單分析與可視化
1
提取下載的結腸癌數據中的臨床數據子集
(同理,可以提取自己感興趣的任何數據)
RTCGAToolbox不僅可以下載的數據,還貼心的提供了5個基本的數據分析工具:
差異表達分析 比較腫瘤組織與癌旁組織的基因表達量,且根據不同的平臺會自動選擇合適的分析工具
基因表達量與拷貝數的相關性分析
基因突變頻率分析
生存分析
數據的簡單可視化報告
因為本例中,我們僅僅是下載了數據量比較小的結腸癌的突變數據與臨床數據,所以可以操作的分析局限于基因的突變頻率與基于臨床資料的簡單生存分析
2
基因突變頻率分析
3
查看生存情況
RTCGAToolbox給我們提供了一條下載,管理TCGA數據相對便捷的方式。你自己也可以結合其他工具包來靈活操作TCGA的數據,比如可以用RTCGAToolbox下載數據,但是用suivival工具包來更靈活做生存分析,用ggplot2來繪制火山圖,熱圖,柱狀圖等。(當然,RTCGAToolbox自帶的數據分析工具也很強大,做的圖一樣美觀,以下圖都是該包可視化分析的圖)
RTCGAToolbox可以通過一個函數便捷的完成所有數據的下載,包括下載并解壓縮,讀入R環境,非常方便。另外,下載的各種類型的數據會被自動封裝在一個文件中,比如上文中的COADData數據包括三種數據類型。