大數(shù)據(jù)分析在選擇病毒疫苗中起著關(guān)鍵作用。現(xiàn)在,這聽(tīng)起來(lái)像是科幻小說(shuō)的摘錄。但是實(shí)際上,現(xiàn)代大數(shù)據(jù)分析技術(shù)的實(shí)際應(yīng)用可以改善當(dāng)今的生活。
在大數(shù)據(jù)分析在病毒疫苗研究中的應(yīng)用中,我們將為您講述一個(gè)有趣的故事。我們將討論病毒(非計(jì)算機(jī)類(lèi)型),流行性感冒以及第一種疫苗的發(fā)明方法。最重要的是,我們將討論一些用于分析生物學(xué)數(shù)據(jù)的大數(shù)據(jù)分析技術(shù)和工具。此外,我們還將討論基因組數(shù)據(jù)的一種基本可視化技術(shù):系統(tǒng)發(fā)育樹(shù)。我們將在預(yù)測(cè)流行性感冒的變化并為病毒的未來(lái)行為建模時(shí)看到如何實(shí)施樹(shù)木。到本文結(jié)尾,您甚至將學(xué)習(xí)有關(guān)平臺(tái)的知識(shí),在這里您可以存儲(chǔ)和分析基因數(shù)據(jù)。
但是,讓我們一次邁出一步。首先,我們將研究一般的病毒及其功能。
病毒疫苗:病毒機(jī)制,又稱(chēng)病毒生命周期
什么是病毒?
生物是復(fù)雜的系統(tǒng)。我們已經(jīng)習(xí)慣了大型且可見(jiàn)的動(dòng)物-哺乳動(dòng)物,鳥(niǎo)類(lèi),爬行動(dòng)物。但是,也有微觀的看不見(jiàn)的生物,它們實(shí)際上生活在我們中間,或者更確切地說(shuō),是在我們內(nèi)部。小細(xì)菌或病毒細(xì)胞會(huì)滲透到我們的身體,使我們生病。但是,細(xì)菌和病毒是兩種不同類(lèi)型的生物。常見(jiàn)的誤解是疾病的原因主要是細(xì)菌。細(xì)菌是一組不同的細(xì)胞,但實(shí)際上,其中只有1%會(huì)引起疾病。其余的完全是無(wú)害的。病毒呢?好吧,它們幾乎是硬幣的另一面(如果那個(gè)硬幣很不公平),因?yàn)閹缀跛杏矌?大約99%)都會(huì)生病。
而且,如果病毒對(duì)其他生物如此危險(xiǎn),那么仔細(xì)研究它們的功能無(wú)疑是有道理的。
病毒如何起作用?
病毒起作用的方式是通過(guò)滲透宿主或宿主細(xì)胞。然后,它們利用這些細(xì)胞在生物體內(nèi)復(fù)制和傳播,并且通常會(huì)造成各種破壞。從技術(shù)上講,進(jìn)入細(xì)胞之前,病毒被稱(chēng)為病毒體。的確,幾乎每個(gè)人都使用病毒一詞來(lái)描述這兩個(gè)階段。不過(guò),這是一個(gè)有用的事實(shí),您可以在下一次聚會(huì)對(duì)話(huà)有點(diǎn)陳舊時(shí)提出。
無(wú)論如何,這是所有病毒如何工作的基本機(jī)制。但是,您可能已經(jīng)猜到了,不同的病毒有特定的方式潛入我們的細(xì)胞。它們可能因病毒而異。因此,我們將在下幾段中看到有關(guān)流感如何運(yùn)作的細(xì)節(jié)。
流感如何起作用?
您可能在新聞中聽(tīng)說(shuō)過(guò)H3N2或H1N1流感病毒。但是,如果您不是生物學(xué)家,您可能想知道這些字母和數(shù)字的含義。好吧,H代表血凝素,N代表神經(jīng)氨酸酶。H和N都是蛋白質(zhì),它們都有自己的用途。
H和N表面蛋白-流感生命周期的重要組成部分
H和N蛋白位于病毒表面,在流感的生命周期中起著至關(guān)重要的作用。它們有助于宿主細(xì)胞(血凝素)的滲透以及隨后病毒(神經(jīng)氨酸酶)在宿主細(xì)胞中的復(fù)制。
現(xiàn)在,這兩種蛋白質(zhì)的結(jié)構(gòu)可能有所不同,因此它們的不同版本可以用數(shù)字標(biāo)識(shí)。H3N2是一個(gè)例子。它包含H蛋白的第三種變體和N蛋白的第二種變體。實(shí)際上,H3N2和H1N1是感染人類(lèi)的兩種最常見(jiàn)的流感病毒亞型。因此,讓我們看一下它們的流行名稱(chēng)和特征。
香港流感
H3N2,也稱(chēng)為香港流感,于1968年引起大流行,在全球造成超過(guò)100萬(wàn)人死亡。盡管不像H1N1病毒那樣致命,但它具有極強(qiáng)的傳染性,并從亞洲開(kāi)始,然后通過(guò)從越南返回的軍隊(duì)到達(dá)美國(guó),迅速在人群中傳播。到1969年底,該病毒也已傳播到非洲和南美的部分地區(qū)。
西班牙流感
H1N1病毒造成了2009年的豬流感大流行,以及1918年毀滅性的西班牙流感。造成西班牙流感的特殊H1N1毒株具有極高的致死性,導(dǎo)致全球超過(guò)3000萬(wàn)人死亡。然而,高死亡率的原因仍然是個(gè)謎。雖然一些科學(xué)家建議涉及這種病毒的異常侵襲形式,但另一些科學(xué)家則聲稱(chēng)感染周?chē)那闆r:第一次世界大戰(zhàn)期間營(yíng)地過(guò)于擁擠和缺乏無(wú)菌環(huán)境是造成高死亡人數(shù)的原因。
您可能在想:“如果這種病毒如此危險(xiǎn)或具有致命性,我們?nèi)绾伪Wo(hù)自己免受病毒侵害?答案是:流感疫苗,通常稱(chēng)為病毒疫苗。所以…
什么是疫苗及其作用?
第一種疫苗
愛(ài)德華·詹納(EdwardJenner)于1796年首次引入了成功的疫苗,它是針對(duì)天花病毒的。他觀察到以前患有另一種疾病(牛痘)的人沒(méi)有染上天花。因此,如果人們首先感染了牛痘病毒,他們就會(huì)對(duì)更具致命性的天花產(chǎn)生抵抗力。他的觀察幫助創(chuàng)建了第一個(gè)成功的疫苗。結(jié)果,天花病毒此后在世界范圍內(nèi)被根除。
如今,我們有不同類(lèi)型的疫苗。它們旨在幫助人體的免疫系統(tǒng)識(shí)別并防止病毒復(fù)制并引起感染。該過(guò)程涉及使用某種形式的弱化病毒,免疫系統(tǒng)可以訓(xùn)練這種弱化病毒進(jìn)行識(shí)別。然后,它可以為其創(chuàng)建特定抗體并將其滅活。
病毒疫苗:它們包含什么病毒疫苗由弱毒的H1N1和H3N2毒株組成。當(dāng)這些物質(zhì)出現(xiàn)時(shí),我們的生物體就可以開(kāi)始產(chǎn)生針對(duì)病毒H1N1和H3N2細(xì)胞的特異性抗體。然后,當(dāng)真正的病毒進(jìn)入系統(tǒng)時(shí),我們的免疫系統(tǒng)便準(zhǔn)備就緒并可以使其失活。
現(xiàn)在我們已經(jīng)討論了病毒疫苗及其包含的內(nèi)容,讓我們看看誰(shuí)負(fù)責(zé)疫苗的創(chuàng)建。
病毒疫苗:生產(chǎn),選擇
世衛(wèi)組織決定包括哪些病毒疫苗。而且,不,這并不是要提問(wèn)或作為醫(yī)生參考,它只是世界衛(wèi)生組織(WHO)的縮寫(xiě),而且正好是由人們來(lái)決定每年將包含哪些病毒疫苗。
但是為什么需要改變呢?
年度病毒疫苗的原因:抗原性漂移和轉(zhuǎn)移
為了回答這個(gè)問(wèn)題,我們首先需要解釋病毒進(jìn)化的兩個(gè)主要機(jī)制:抗原漂移和抗原轉(zhuǎn)移。
抗原漂移
想象一下,有一群人,被困在海中的木筏上。隨著時(shí)間的流逝,木排上的人們會(huì)慢慢改變?nèi)菝玻舫龊殻^發(fā)變長(zhǎng),曬黑。本質(zhì)上,他們?nèi)匀皇峭粋€(gè)人,但略有變化。這就是抗原漂移的意思,隨著時(shí)間的推移緩慢變化。
抗原轉(zhuǎn)移
現(xiàn)在,如果那些人混合他們的基因組(沒(méi)有一個(gè)孩子這么稱(chēng)呼)并創(chuàng)造出一個(gè)后代,也就是一個(gè)孩子,它將包含他們兩個(gè)特征的混合物。這就是抗原轉(zhuǎn)移或重排的意思:遺傳物質(zhì)的交換和新生物的產(chǎn)生(如此巨大的變化)。在我們的案例中,這是一種新的流感亞型,例如我們之前提到的H3N1或H1N1。
這就回答了我們有關(guān)疫苗生產(chǎn)及其每年更換原因的問(wèn)題。流感快速變化,變異和轉(zhuǎn)化。因此,很難找到一種可以對(duì)抗所有可能傳播的流感病毒類(lèi)型的疫苗。
所以,當(dāng)科學(xué)家們決定如何制定疫苗,他們需要選擇哪株病毒,以使其最有效的包含。后者取決于疫苗與流感病毒的相似程度,流感病毒將在即將來(lái)臨的流感季節(jié)占主導(dǎo)地位。
預(yù)測(cè)流感傳播–大數(shù)據(jù)分析
如何預(yù)測(cè)即將到來(lái)的流感病毒類(lèi)型?
這就是大數(shù)據(jù)分析發(fā)揮作用的地方。基于有關(guān)以前和當(dāng)前病毒傳播和變體的現(xiàn)有數(shù)據(jù),科學(xué)家嘗試使用機(jī)器學(xué)習(xí)算法對(duì)病毒的未來(lái)行為進(jìn)行建模和預(yù)測(cè)。
為此,他們首先需要一種適當(dāng)?shù)姆绞絹?lái)處理有關(guān)病毒或更確切地說(shuō)是其基因組的信息。這是通過(guò)分析遺傳數(shù)據(jù)來(lái)完成的。但是到底什么是遺傳數(shù)據(jù)?
什么是基因組和基因數(shù)據(jù)?
遺傳數(shù)據(jù)包括生物體或其部分的基因組。它通常由DNA組成,以字符串形式表示。就流感而言,它包含RNA,RNA是某些病毒的遺傳物質(zhì)。
有了數(shù)據(jù)后,就該考慮如何理解這些數(shù)據(jù)了,這意味著我們首先需要一種可視化它的方法。
有很多選擇。但是,我們將特別關(guān)注一種主要的系統(tǒng)發(fā)育樹(shù)。
可視化技術(shù):系統(tǒng)發(fā)育樹(shù)
系統(tǒng)發(fā)育樹(shù),也稱(chēng)為進(jìn)化樹(shù),根據(jù)其遺傳學(xué)來(lái)表示不同物種的接近程度。基本上,它們是顯示物種之間進(jìn)化關(guān)系的圖。在流行性感冒的情況下,此類(lèi)樹(shù)木可用于可視化病毒的不同品系。
預(yù)測(cè)模型
現(xiàn)在是時(shí)候?qū)⑺羞@些放在一起并到達(dá)最終點(diǎn)了。即,使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測(cè)。
想象一下,您已經(jīng)以流感基因組或抗體的形式獲得了生物學(xué)數(shù)據(jù),并已使用樹(shù)木將其表示出來(lái)。使用從樹(shù)中獲取的信息,您可以采用不同的機(jī)器學(xué)習(xí)技術(shù)來(lái)模擬流感病毒的未來(lái)行為或傳播。
這些包括使用非負(fù)最小二乘法,構(gòu)造最大似然樹(shù)或使用評(píng)分方法。后者的例子包括構(gòu)建相似性類(lèi)別和替代矩陣,以解釋病毒的抗原差異。在接下來(lái)的段落中,我們將概述幾種不同的技術(shù)。
非負(fù)最小二乘
它使用非負(fù)最小二乘優(yōu)化,該優(yōu)化可測(cè)量系統(tǒng)樹(shù)的分支之間的距離。他們使用雙向加權(quán)系統(tǒng)發(fā)育樹(shù),并確定H蛋白表面編碼變化的集合。然后,該模型可以識(shí)別不同流感病毒株的抗原影響。
通過(guò)最大可能性或PAML進(jìn)行系統(tǒng)發(fā)育分析
進(jìn)行系統(tǒng)發(fā)育分析的另一種方法是使用PAML軟件包,該軟件包包含使用最大似然(ML)進(jìn)行遺傳數(shù)據(jù)系統(tǒng)發(fā)育分析的程序。這樣做的方法是采用一組樹(shù)并在不同模型下評(píng)估它們的對(duì)數(shù)似然值。這些模型估計(jì)一些參數(shù),同時(shí)允許其他參數(shù)變化。這樣,他們可以將多種基因類(lèi)型整合到流感病毒株及其表面H蛋白中。
基于樹(shù)和替換模型的比較
值得一提的第三種方法是……嗯,實(shí)際上有兩種不同的方法:一種基于樹(shù)的模型和一種替換模型,以及兩者之間的比較。感覺(jué)就像我們?cè)隍_你,但我們保證特別要談?wù)勥@兩個(gè)。
預(yù)測(cè)流感病毒株的最后一種方法。它包括一個(gè)基于樹(shù)的模型,該模型具有一個(gè)測(cè)試和一個(gè)參考流感病毒株,并創(chuàng)建加權(quán)的系統(tǒng)發(fā)育樹(shù)。替換模型使用與參考病毒和測(cè)試病毒之間的氨基酸替換相關(guān)的貢獻(xiàn)之和。根據(jù)2002年至2015年收集的數(shù)據(jù),基于樹(shù)的模型和替換模型在預(yù)測(cè)準(zhǔn)確性方面的表現(xiàn)相似。
選擇“最佳”方法(在大數(shù)據(jù)分析中)
我們確實(shí)說(shuō)過(guò)最后兩個(gè)模型是有特定目的的。這是為了說(shuō)明大數(shù)據(jù)分析中一個(gè)非常普遍的問(wèn)題:機(jī)器學(xué)習(xí)提供了各種各樣的工具,使我們能夠分析數(shù)據(jù)并建立預(yù)測(cè)模型。在某些情況下,尤其是如果您是該領(lǐng)域的新手,大數(shù)據(jù)分析在病毒疫苗研究中的應(yīng)用https://www.aaa-cg.com.cn/data/2270.html這可能會(huì)變得勢(shì)不可擋。我們看到兩種不同的技術(shù)在相同問(wèn)題上產(chǎn)生相似的結(jié)果。實(shí)際上通常是這樣:兩種或多種算法在給定的數(shù)據(jù)集上表現(xiàn)相似。然后,“正確”算法的選擇可以取決于我們給出的任務(wù)的具體情況,也可以由其他因素(速度,可伸縮性,模型的可解釋性,清單等)確定。
這也被稱(chēng)為“無(wú)免費(fèi)午餐定理”,這是機(jī)器學(xué)習(xí)中的一個(gè)常見(jiàn)問(wèn)題,表明沒(méi)有一種模型可以解決所有問(wèn)題。大數(shù)據(jù)分析家工作的重要部分是了解每種方法的優(yōu)點(diǎn)和缺點(diǎn),并始終選擇合適的工具來(lái)解決當(dāng)前的問(wèn)題。
基因組,大數(shù)據(jù)分析的新興領(lǐng)域
這幾乎使本文結(jié)束。
那真是過(guò)山車(chē),對(duì)嗎?我們從了解流感以及病毒如何工作開(kāi)始,并回顧了第一種疫苗和最大的流感大流行的歷史。什么時(shí)候我們談到抗原的變化和漂移?特別是解釋這些,我們玩得很開(kāi)心。
我們還討論了不同類(lèi)型的生物數(shù)據(jù)及其可視化。最后,我們學(xué)習(xí)了如何使用不同的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測(cè)。
總之,大數(shù)據(jù)分析不僅僅是IT領(lǐng)域或大型公司使用的工具。實(shí)際上,它在(生命)科學(xué)中起著越來(lái)越重要的作用。而且,醫(yī)學(xué)和生物學(xué)應(yīng)用正變得越來(lái)越重要和廣泛。從而允許用戶(hù)在各自的云平臺(tái)上存儲(chǔ)和分析自己的基因組。
而且,如果他們這樣做了,那么可以肯定地說(shuō),使用機(jī)器學(xué)習(xí)進(jìn)行基因組及其分析值得研究。事物運(yùn)行的方式,基因組及其分析可能很快會(huì)成為我們?nèi)粘I畹囊徊糠帧R虼耍覀冋J(rèn)為熟悉該領(lǐng)域非常有道理。而且,在介紹完我們剛剛給您的內(nèi)容之后,我們確信您會(huì)做到這一點(diǎn)。
https://www.toutiao.com/i6820236134396723719/