是否也要懂計(jì)算機(jī)編程?
不一定需要。但如果懂了計(jì)算機(jī)編程會(huì)給生物基因研究提供可類比的思路和原理。因?yàn)橛?jì)算機(jī)和基因?qū)W這兩者研究的客體都是信息,甚至就可以稱為數(shù)據(jù)。現(xiàn)在就有生物醫(yī)學(xué)信息學(xué)和生物信息學(xué)等新興學(xué)科跨越了傳統(tǒng)的信息學(xué)和生物學(xué)領(lǐng)域,并逐漸開(kāi)拓新的研究方向。因此在生物基因研究方面廣泛地涉及到了計(jì)算機(jī)相關(guān)的技術(shù),而在當(dāng)今的生物信息學(xué)涉及到大量的數(shù)據(jù)挖掘工作,這方面是需要進(jìn)行編程的,諸如利用R語(yǔ)言或其他面向數(shù)據(jù)挖掘的語(yǔ)言來(lái)進(jìn)行大數(shù)據(jù)分析。
我們下面來(lái)詳細(xì)了解一下現(xiàn)代生物信息學(xué)與信息學(xué)的關(guān)聯(lián)。
生物信息學(xué)是一種混合學(xué)科,它將生物的數(shù)據(jù)與信息存儲(chǔ)、分發(fā)和分析技術(shù)聯(lián)系起來(lái),以支持包括生物醫(yī)學(xué)在內(nèi)的多個(gè)科學(xué)研究領(lǐng)域。生物信息學(xué)研究的是高通量基因數(shù)據(jù)生成實(shí)驗(yàn)提供的數(shù)據(jù),這些實(shí)驗(yàn)包括基因組序列確定和基因表達(dá)模式的測(cè)量等等。數(shù)據(jù)庫(kù)項(xiàng)目負(fù)責(zé)整理和注釋數(shù)據(jù),然后通過(guò)萬(wàn)維網(wǎng)進(jìn)行分發(fā)。挖掘這些數(shù)據(jù)產(chǎn)生新的科學(xué)發(fā)現(xiàn)并確定新的臨床應(yīng)用。特別是在醫(yī)學(xué)領(lǐng)域,已經(jīng)出現(xiàn)了生物信息學(xué)的許多重要應(yīng)用。例如,它可用于識(shí)別基因序列與疾病之間的相關(guān)性,從氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),幫助設(shè)計(jì)新藥以及根據(jù)患者的DNA序列為患者量身定制治療方法(藥物基因組學(xué))等等。
上圖:這張的計(jì)算機(jī)圖像顯示了炭疽桿菌某蛋白質(zhì)中七個(gè)單元的各種結(jié)構(gòu)關(guān)系,并展示了與蛋白質(zhì)結(jié)合的藥物(以黃色顯示)的相互作用,以阻斷所謂的致死因子單位。給定分子的單個(gè)結(jié)構(gòu),生物信息學(xué)在使科學(xué)家能夠預(yù)測(cè)藥物分子在蛋白質(zhì)中結(jié)合的位點(diǎn)方面起著重要作用。
生物信息學(xué)涉及到數(shù)據(jù)挖掘,數(shù)據(jù)挖掘可能需要涉及到編程。生物信息學(xué)的經(jīng)典數(shù)據(jù)包括基因的DNA序列或完整的基因組。蛋白質(zhì)的氨基酸序列;蛋白質(zhì)、核酸和蛋白質(zhì)-核酸復(fù)合物的三維結(jié)構(gòu)數(shù)據(jù)等。其他數(shù)據(jù)流包括:
轉(zhuǎn)錄組學(xué)、即從DNA合成RNA的模式;
蛋白質(zhì)組學(xué),蛋白質(zhì)在細(xì)胞中的分布;
相互作用組學(xué),蛋白質(zhì)-蛋白質(zhì)和蛋白質(zhì)-核酸相互作用的模式;
和代謝組學(xué),小分子通過(guò)細(xì)胞中活躍的生化途徑轉(zhuǎn)化的性質(zhì)和運(yùn)輸模式。
在上述各種情況下,都希望獲得針對(duì)特定細(xì)胞類型的全面、準(zhǔn)確的數(shù)據(jù),并確定數(shù)據(jù)中的變化模式。例如,數(shù)據(jù)可能會(huì)根據(jù)細(xì)胞類型,數(shù)據(jù)收集的時(shí)間(在細(xì)胞周期或晝夜,季節(jié)或年度變化期間),發(fā)育階段和各種外部條件而波動(dòng)。而此外,元基因組學(xué)和元蛋白質(zhì)組學(xué)將這些測(cè)量范圍擴(kuò)展到對(duì)環(huán)境樣本(例如一桶海水或土壤樣本)中生物的全面描述。
上圖:生物信息學(xué)涉及到的方方面面。
生物信息學(xué)一直受到生物學(xué)數(shù)據(jù)生成過(guò)程的巨大推動(dòng)。基因組測(cè)序方法可能顯示出最戲劇性的效果。1999年,核酸序列檔案庫(kù)共包含35億個(gè)核苷酸,比單個(gè)人類基因組的長(zhǎng)度略長(zhǎng) ; 十年后,該庫(kù)包含超過(guò)2830億個(gè)核苷酸,約95個(gè)人類基因組的長(zhǎng)度。
有多種用于數(shù)據(jù)挖掘的編程語(yǔ)言,主要包括以下幾種:
R語(yǔ)言
Julia語(yǔ)言
Python語(yǔ)言
上圖:2014年數(shù)據(jù)挖掘的主要編程語(yǔ)言占比情況。
數(shù)據(jù)存儲(chǔ)與檢索在生物信息學(xué)中,數(shù)據(jù)庫(kù)用于存儲(chǔ)和組織數(shù)據(jù)。這些實(shí)體中有許多從科學(xué)論文和基因組計(jì)劃中收集DNA和RNA序列。許多數(shù)據(jù)庫(kù)掌握在國(guó)際組織手中,例如:
由英國(guó)歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸序列數(shù)據(jù)庫(kù)(EMBL-Bank),日本DNA數(shù)據(jù)庫(kù)(DDBJ)和美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)的GenBank組成的咨詢委員會(huì)負(fù)責(zé)監(jiān)督國(guó)際核苷酸序列數(shù)據(jù)庫(kù)合作組織(INSDC)。為了確保可自由獲得序列數(shù)據(jù),科學(xué)期刊要求新的核苷酸序列存放在公眾可訪問(wèn)的數(shù)據(jù)庫(kù)中,作為發(fā)表文章的條件。(類似條件適用于核酸和蛋白質(zhì)結(jié)構(gòu)。)還存在基因組瀏覽器、數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)將有關(guān)特定物種的所有可用基因組和分子信息匯集在一起。
生物大分子結(jié)構(gòu)的主要數(shù)據(jù)庫(kù)是全球蛋白質(zhì)數(shù)據(jù)庫(kù)(wwPDB),由美國(guó)結(jié)構(gòu)生物信息學(xué)研究合作機(jī)構(gòu)(RCSB),英國(guó)歐洲生物信息學(xué)研究所的歐洲蛋白質(zhì)數(shù)據(jù)庫(kù)(PDBe)和日本大阪大學(xué)的蛋白質(zhì)數(shù)據(jù)庫(kù)聯(lián)合支持。
從數(shù)據(jù)檔案中檢索信息使用標(biāo)準(zhǔn)工具通過(guò)關(guān)鍵字識(shí)別數(shù)據(jù)項(xiàng);例如,可以在Google中輸入“土豚肌紅蛋白”并檢索該分子的氨基酸序列。
數(shù)據(jù)挖掘編程可能涉及到從這些數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù)。
生物信息學(xué)的目標(biāo)開(kāi)發(fā)用于測(cè)量序列相似性的有效算法是生物信息學(xué)的重要目標(biāo)。基于動(dòng)態(tài)編程的Needleman-Wunsch算法可確保找到序列對(duì)的最佳比對(duì)。該算法從本質(zhì)上將一個(gè)大問(wèn)題(完整序列)劃分為一系列較小的問(wèn)題(短序列段),并使用較小問(wèn)題的解決方案來(lái)構(gòu)造該較大問(wèn)題的解決方案。在矩陣中對(duì)序列的相似性評(píng)分,并且該算法允許檢測(cè)序列比對(duì)中的缺口。
盡管Needleman-Wunsch算法是有效的,但它對(duì)于探測(cè)大型序列數(shù)據(jù)庫(kù)仍然太慢。因此,人們已經(jīng)非常關(guān)注尋找可以處理檔案中大量數(shù)據(jù)的快速信息檢索算法。一個(gè)例子是BLAST程序(基本局部比對(duì)搜索工具)。BLAST的開(kāi)發(fā)采用稱為位置特異性迭代(或PSI-)BLAST的技術(shù),它利用相關(guān)序列中的保守性模式,并結(jié)合BLAST的高速性和極高的敏感性來(lái)尋找相關(guān)序列。
生物信息學(xué)的另一個(gè)目標(biāo)是通過(guò)預(yù)測(cè)來(lái)擴(kuò)展實(shí)驗(yàn)數(shù)據(jù)。計(jì)算生物學(xué)的基本目標(biāo)是根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)的自發(fā)折疊表明這應(yīng)該是可能的。通過(guò)兩年一次的結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(CASP)程序來(lái)測(cè)量預(yù)測(cè)蛋白質(zhì)折疊方法的進(jìn)展,該程序涉及結(jié)構(gòu)預(yù)測(cè)方法的盲測(cè)。
給定可配合的單個(gè)結(jié)構(gòu),生物信息學(xué)也可用于預(yù)測(cè)蛋白質(zhì)之間的相互作用。這被稱為“停靠問(wèn)題”。蛋白質(zhì)-蛋白質(zhì)復(fù)合物在表面形狀和極性上顯示出良好的互補(bǔ)性,并且在很大程度上由于弱相互作用而穩(wěn)定,例如疏水面的埋入、氫鍵和范德華力等等。
計(jì)算機(jī)程序可以模擬這些相互作用,以預(yù)測(cè)結(jié)合伴侶之間的最佳空間關(guān)系。設(shè)計(jì)一種與靶蛋白具有高親和力的抗體就是可能具有重要治療用途的挑戰(zhàn)課題之一。
上圖:蛋白質(zhì)的停靠問(wèn)題。
早年,許多生物信息學(xué)研究的重點(diǎn)相對(duì)狹窄,專注于設(shè)計(jì)用于分析特定類型數(shù)據(jù)的算法,例如基因序列或蛋白質(zhì)結(jié)構(gòu)。然而,現(xiàn)在,生物信息學(xué)的目標(biāo)是綜合的,旨在弄清楚如何將不同類型的數(shù)據(jù)組合用于理解自然現(xiàn)象,包括生物和疾病。因此內(nèi)容越來(lái)越豐富。
所以對(duì)于一些前沿研究項(xiàng)目,生物學(xué)或者遺傳學(xué)研究者可能需要自己編程開(kāi)發(fā)研究工具。所以學(xué)習(xí)編程技能也是有幫助的。
生物學(xué)方面的應(yīng)用DNA或脫氧核糖核酸為每種生物提供了一套完整的描述。每個(gè)生物體中的每個(gè)細(xì)胞都包含完整的DNA副本。基因是編碼并存儲(chǔ)在DNA中的核苷酸序列集。每個(gè)基因編碼某種蛋白質(zhì)。DNA被轉(zhuǎn)錄成mRNA,即信使核糖核酸,然后被翻譯成蛋白質(zhì)。蛋白質(zhì)由氨基酸序列定義。單個(gè)氨基酸由稱為密碼子的三個(gè)核苷酸編碼。如下圖所示,有64個(gè)可能的密碼子和只有20個(gè)氨基酸。由于只有20個(gè)氨基酸,因此多個(gè)密碼子編碼相同的氨基酸。這被稱為遺傳密碼的簡(jiǎn)并性。由于遺傳密碼的這種簡(jiǎn)并性,某些SNP不會(huì)導(dǎo)致蛋白質(zhì)序列發(fā)生變化。這稱為同義突變。如果SNP導(dǎo)致蛋白質(zhì)序列改變,這被稱為非同義改變。在人類基因組中發(fā)現(xiàn)單個(gè)核苷酸的變化可能就像“在大海撈針”,但是,生物信息學(xué)資源可以做到這一點(diǎn)。
上圖:此密碼子表顯示了遺傳密碼如何轉(zhuǎn)換為組成蛋白質(zhì)的氨基酸序列。
一個(gè)單核苷酸多態(tài)性,或SNP,是人類的DNA序列中可能發(fā)生的微小遺傳變化或變異。SNP代表人類中發(fā)現(xiàn)的最常見(jiàn)的DNA變異類型。這些變異可用于研究和跟蹤家庭的繼承。盡管整個(gè)人群中超過(guò)99%的人類DNA序列是相同的,但是DNA序列(例如SNP)的微小變化可能會(huì)對(duì)人類對(duì)疾病,環(huán)境因素和藥物的反應(yīng)產(chǎn)生重大影響。有趣的是,SNP在進(jìn)化上是穩(wěn)定的。這意味著它們代代相傳的變化不大。話雖如此,SNP在生物醫(yī)學(xué)研究中具有極大的興趣和價(jià)值。SNP數(shù)據(jù)正在影響開(kāi)發(fā)藥品或醫(yī)療診斷程序。上圖:在這里您可以看到一個(gè)單核苷酸多態(tài)性,即SNP,它導(dǎo)致序列1和序列2之間的遺傳變化很小。
人類DNA序列的變異會(huì)影響人類發(fā)展疾病和對(duì)藥物的反應(yīng)。盡管SNP不會(huì)引起疾病,但它們可以幫助確定某人患上特定疾病的可能性。
計(jì)算生物學(xué),即分析和解釋數(shù)據(jù)的實(shí)際過(guò)程,結(jié)合了生物信息學(xué),被用于稱為數(shù)據(jù)挖掘的技術(shù)。隨著人類基因組計(jì)劃在2003年的完成,大量的基因組數(shù)據(jù)可用于數(shù)據(jù)庫(kù)挖掘,即通過(guò)識(shí)別DNA中相似或不相似的序列來(lái)生成關(guān)于某些目的基因或蛋白質(zhì)的功能或結(jié)構(gòu)假設(shè)的過(guò)程。
國(guó)際HapMap項(xiàng)目旨在通過(guò)HapMap向研究人員提供信息,HapMap是人類常見(jiàn)遺傳變異的目錄,也提供對(duì)變異的描述以及它們?cè)谖覀僁NA中的位置。該目錄提供了研究人員將遺傳變異與特定疾病風(fēng)險(xiǎn)聯(lián)系起來(lái)所需的信息。總結(jié)生物學(xué)、遺傳學(xué)與計(jì)算機(jī)科學(xué)的關(guān)系越來(lái)越緊密了,但關(guān)于編程方面的技能需求目前主要可能是在數(shù)據(jù)挖掘方面,因?yàn)樯飳W(xué)和基因?qū)W是實(shí)實(shí)在在的大數(shù)據(jù)。