導(dǎo)語
當(dāng)前在計(jì)算科學(xué)、計(jì)算機(jī)硬件和生命科學(xué)方面無法預(yù)料的突破可能會(huì)使我們朝著目標(biāo)邁進(jìn)計(jì)算機(jī)模擬生物學(xué)的速度更快。
Roland R。 Netz、William A。 Eaton| 作者
趙雨亭| 譯者
論文題目:
Estimating computational limits on theoretical descriptions of biological cells
論文地址:
https://www.pnas.org/content/118/6/e2022753118
埃爾溫·薛定諤在他1944年的著作《生命是什么?》[1]中問道:“如何使用物理兼化學(xué)方法來解釋在一個(gè)活的有機(jī)體在自己的空間邊界內(nèi)發(fā)生的時(shí)空事件?”在隨后的近80年中,科研人員已經(jīng)探索了許多有關(guān)亞細(xì)胞現(xiàn)象的、更深層機(jī)理的成果。雖然如此,以第一原理對(duì)生活中的生命體進(jìn)行計(jì)算機(jī)模擬仍然是一個(gè)遙不可及的目標(biāo)。
在最近一篇發(fā)表于美國國家科學(xué)院院刊 PNAS 的文章中[2],Netz 與 Eaton 預(yù)測(cè)了這種模擬變?yōu)楝F(xiàn)實(shí)所需的時(shí)間。他們進(jìn)一步將其估計(jì)擴(kuò)展到更大的生物系統(tǒng),并討論是否以及何時(shí)有可能模擬諸如人腦之類的多細(xì)胞實(shí)體。
1。 用計(jì)算機(jī)模擬生命過程
在一個(gè)生物學(xué)上有意義的時(shí)間間隔內(nèi)(例如一個(gè)小時(shí)、一次細(xì)胞分裂時(shí)間),模擬細(xì)胞大小的分子裝配似乎是一項(xiàng)艱巨的任務(wù)。的確,現(xiàn)代分子模擬領(lǐng)域的勝利之一就是觀察到了蛋白質(zhì)的可逆老化——這種老化發(fā)生在微秒級(jí)[3]。相比之下,單個(gè)細(xì)胞每小時(shí)可以合成數(shù)千或數(shù)百萬個(gè)蛋白質(zhì),其中許多蛋白質(zhì)可能需要數(shù)秒或數(shù)分鐘才能折疊,并且只有在細(xì)胞機(jī)械(cellular machinery)的幫助下才能完成。
在最新的科研嘗試中[4],研究者模擬了細(xì)胞質(zhì)中,相對(duì)較大的100 nm×100 nm×100 nm亞空間。但是,該研究中獲得的數(shù)十納秒的時(shí)間尺度卻非常短,比所需的1小時(shí)短了10個(gè)數(shù)量級(jí)!但是,如果按照摩爾定律的預(yù)測(cè),計(jì)算能力繼續(xù)呈指數(shù)增長(zhǎng),那么彌合這種時(shí)間尺度上的差距似乎并非遙不可及。
的確,如果計(jì)算機(jī)速度每 1.5 年翻一番,則應(yīng)該有可能在50年[5]內(nèi)達(dá)到所需的時(shí)間范圍。某些為加速分子模擬而開發(fā)的方法可能會(huì)提供進(jìn)一步的幫助。例如,可以嘗試提高仿真溫度以加快動(dòng)力學(xué)速度。盡管這種簡(jiǎn)單的加速動(dòng)力學(xué)的方法存在問題——比如我們無法通過將葡萄酒在不破壞質(zhì)量的前提下升溫來加速老化——但該思路仍然具有啟發(fā)。
然而,存在一個(gè)關(guān)鍵問題:分子動(dòng)力學(xué)(Molecular dynamics,MD)作為標(biāo)準(zhǔn)在原子級(jí)上對(duì)生物分子現(xiàn)象進(jìn)行建模的方法并不是真正的第一手方法:要根據(jù)第一性原理方法(first-principles method)預(yù)測(cè)分子間與分子間相互作用,必須為電子和原子核求解量子薛定諤方程(Schr?dinger equation)——這需要巨大算力。
2。 簡(jiǎn)化模擬降低算力
從頭開始使用分子動(dòng)力學(xué)法求解的代價(jià)就是可觀的計(jì)算成本。相比之下,標(biāo)準(zhǔn)的分子動(dòng)力學(xué)方法利用了兩種簡(jiǎn)化方法:1)由于電子的移動(dòng)速度比原子核快得多,因此它們可以使原子核感受到有效的相互作用;2)可以使用經(jīng)驗(yàn)“力場(chǎng)(force field)”來近似這種有效的相互作用,但它只是描述有效勢(shì)能隨核坐標(biāo)的函數(shù)而變化的分析公式。經(jīng)過數(shù)十年的蓬勃發(fā)展,現(xiàn)在力場(chǎng)已非常精確且可靠。不幸的是,當(dāng)前使用的大多數(shù)力場(chǎng)仍然存在基本局限性:科研人員無法對(duì)其進(jìn)行化學(xué)處理。
化學(xué)反應(yīng)涉及共價(jià)鍵和斷裂和形成。沒有化學(xué)反應(yīng),就不會(huì)有生命。細(xì)胞內(nèi)的酶催化許多化學(xué)反應(yīng),包括與代謝過程或機(jī)械運(yùn)動(dòng)產(chǎn)生有關(guān)的化學(xué)反應(yīng)。為了描述這種反應(yīng),必須進(jìn)行量子處理。Netz 和 Eaton 指出:幸運(yùn)的是,不需要量子力學(xué)來描述整個(gè)單元。相反,研究人員僅需要量子力學(xué)處理來描述形成的原子的有限子集——如酶的活性位點(diǎn)及其底物。
細(xì)胞模擬的量子部分值得進(jìn)一步研究。化學(xué)反應(yīng)的速率(即每單位時(shí)間發(fā)生反應(yīng)的概率)通??梢杂砂惸釣跛苟桑ˋrrhenius law)來描述,
其中ν是一個(gè)前置因子,kBT是熱能(等于玻爾茲曼常數(shù)和溫度的乘積),Ea是活化能,可以粗略地解釋為閾值能量。在反應(yīng)中,必須提供給該分子活化能Ea才能使其從穩(wěn)定的分子構(gòu)象中消失,從而過渡到反應(yīng)產(chǎn)物(圖2)。如果T是人體的溫度,則有kBT≈0:6kcal = mol。
這個(gè)重要數(shù)字對(duì)量子計(jì)算所需的精度設(shè)置了限制。的確,根據(jù)阿倫尼烏斯定律,若是估算活化能時(shí)出現(xiàn)1 kcal / mol的誤差,預(yù)測(cè)的反應(yīng)速率將降低5倍。盡管有一些量子方法可以使能量計(jì)算的精度遠(yuǎn)小于kBT,但算力需求極大,導(dǎo)致該方程通常僅限于在少數(shù)幾個(gè)原子組成的系統(tǒng)中使用。然而目前,在諸如酶催化中遇到的那些更復(fù)雜的分子系統(tǒng),科研人員依然在使用這種方法進(jìn)行模擬。Netz 和 Eaton [2] 提出了密度泛函理論(density functional theory,DFT)方法[2]。DFT所需的計(jì)算工作量與系統(tǒng)規(guī)模的立方成正比。但是DFT的當(dāng)前精度通常僅為幾千卡每摩爾[6],因此,通過基于DFT的模擬所預(yù)測(cè)的動(dòng)態(tài)時(shí)間尺度將提升一個(gè)數(shù)量級(jí)。尤其需要注意的是,與其他電子結(jié)構(gòu)方法不同,DFT并沒有提供系統(tǒng)的方法,通過修改更改計(jì)算參數(shù)以提高其準(zhǔn)確性。
估計(jì)時(shí)間尺度上的數(shù)量級(jí)誤差本身并不是致命的:如果仿真中發(fā)生的所有過程都比實(shí)際速度快十倍,則簡(jiǎn)單的逐步升級(jí)將恢復(fù)正確的動(dòng)力學(xué)。但是,想象一下某些過程發(fā)生的速度快了十倍,而其他過程發(fā)生的速度卻慢了十倍:這將嚴(yán)重破壞不同過程的相對(duì)速率。因此,在仿真中不會(huì)保留適當(dāng)細(xì)胞功能所需的相對(duì)速率的精妙平衡,導(dǎo)致其預(yù)測(cè)能力的下降。
這些考慮因素表明,除非DFT的準(zhǔn)確性得到顯著提高(最近基于機(jī)器學(xué)習(xí)的DFT方法在這方面似乎很有希望[6]),否則并不實(shí)用。然而,可能需要花費(fèi)大量成本的量子計(jì)算才能獲得所需的預(yù)測(cè)能力。由于計(jì)算成本與所需精度之間存在反比關(guān)系,因此可以將這種關(guān)系視為 Netz 和 Eaton 提出的“生物不確定性關(guān)系(biological uncertainty relationships)”之一。
我們已經(jīng)了解了很多有關(guān)亞細(xì)胞現(xiàn)象的物理機(jī)制,但是使用第一原理對(duì)活動(dòng)中的活細(xì)胞進(jìn)行計(jì)算機(jī)模擬仍然是一個(gè)遙不可及的目標(biāo)?;谧罱?Netz 和 Eaton 在這篇文章中給出的預(yù)測(cè),在這樣的模擬變?yōu)楝F(xiàn)實(shí)之前,我們將需要等待多長(zhǎng)時(shí)間。
盡管一個(gè)原子級(jí)的影片慢速播放至一個(gè)小時(shí)會(huì)令人興奮,但由于另一個(gè)原因,它可能沒有太大的預(yù)測(cè)能力:大多數(shù)細(xì)胞現(xiàn)象都在運(yùn)行,然而現(xiàn)有手段只能通過多次重復(fù)模擬來積累足夠的統(tǒng)計(jì)信息后才能理解。在這方面,現(xiàn)代的“細(xì)胞學(xué)(celling)”方法解決長(zhǎng)期動(dòng)力學(xué)問題似乎特別有希望成為一種補(bǔ)救措施。這套原子論方法將系統(tǒng)的空間劃分為多個(gè)細(xì)胞(不要與生物細(xì)胞混淆),并計(jì)算每個(gè)細(xì)胞內(nèi)的短時(shí)彈道(short-time trajectories),以構(gòu)建描述細(xì)胞之間過渡的動(dòng)力學(xué)方案。它實(shí)現(xiàn)了一石二鳥(It kills two birds with one stone),因?yàn)樗梢宰詣?dòng)提供系統(tǒng)的統(tǒng)計(jì)描述,并且比蠻力運(yùn)算更有效。
隨機(jī)的、主方程式的生物細(xì)胞模擬方法可以看作是細(xì)胞的一種極限情況,而這種情況與原子解析軌跡的關(guān)系并不明顯。Netz 和 Eaton 的估計(jì)表明,即使使用現(xiàn)代計(jì)算資源,對(duì)生物細(xì)胞(而非大腦?。┑倪@種模擬也是可以達(dá)到的。
然而,除了隨機(jī)主方程法的近似性質(zhì)外,它還面臨著雙重挑戰(zhàn)。首先,該方法需要事先了解所有相關(guān)的化學(xué)方程式細(xì)胞內(nèi)的形成。這有一個(gè)重大的局限,因?yàn)檠芯空呦Mㄟ^模擬發(fā)現(xiàn)此前未必能預(yù)料到的新化學(xué)過程。規(guī)避此限制的一種潛在方法是在動(dòng)態(tài)地發(fā)現(xiàn)可能的動(dòng)力學(xué)事件(化學(xué)轉(zhuǎn)化)的情況下,采用自適應(yīng)方法。
其次,該方法要求將每種可能的化學(xué)轉(zhuǎn)化的速率系數(shù)作為輸入。除非實(shí)驗(yàn)可用,否則此類信息必須來自原子模擬——幸運(yùn)的是,執(zhí)行操作的規(guī)模要比整個(gè)生物細(xì)胞的規(guī)模小得多。同樣,在這里,研究人員需要考慮導(dǎo)致速率估計(jì)的計(jì)算的準(zhǔn)確性。上面已經(jīng)討論了一種誤差來源,即分子能量估計(jì)的準(zhǔn)確性,但是由于參數(shù)輸入到方程中,所以困難并沒有就此結(jié)束。該模擬仍然需要計(jì)算。這樣做的一種直接方法是在反應(yīng)物狀態(tài)下啟動(dòng)感興趣的分子系統(tǒng),等到反應(yīng)完成(即達(dá)到反應(yīng)產(chǎn)物),然后重復(fù)模擬,直到估計(jì)出平均反應(yīng)時(shí)間為止[9]。
3。 新的低成本模擬方法
一種更低成本的替代方法是過渡態(tài)理論,這是每本化學(xué)教科書中都講的近似方法。不幸的是,現(xiàn)在我們知道過渡態(tài)理論對(duì)液相化學(xué)動(dòng)力學(xué)的描述效果不盡人意。因此,人們將不得不訴諸更準(zhǔn)確的、相應(yīng)也更昂貴的方法。自1970年代起,化學(xué)物理學(xué)界開發(fā)了許多方法來計(jì)算“精確的”反應(yīng)速率,而無需進(jìn)行長(zhǎng)時(shí)間的動(dòng)力學(xué)模擬[7],通常的想法是在反應(yīng)物和產(chǎn)物狀態(tài)之間進(jìn)行模擬,并對(duì)系統(tǒng)進(jìn)行監(jiān)控。直到到達(dá)產(chǎn)品為止。這樣,可以使用相對(duì)較短的軌跡[7]來計(jì)算對(duì)過渡態(tài)理論的動(dòng)態(tài)校正。
對(duì)單個(gè)細(xì)胞和多細(xì)胞系統(tǒng)進(jìn)行模擬的另一個(gè)障礙是,這種模擬不是獨(dú)立的,必須依賴于有關(guān)細(xì)胞分子組織的結(jié)構(gòu)信息。特別是就分子機(jī)器的內(nèi)部運(yùn)行而言,該信息必須來自實(shí)驗(yàn)研究,目前尚不完整。
總結(jié)上述觀點(diǎn),盡管可能在未來幾十年內(nèi)實(shí)現(xiàn)整個(gè)細(xì)胞的計(jì)算機(jī)模擬,但人們不應(yīng)該將所有的籌碼都押注于它們作為學(xué)習(xí)生命物質(zhì)的主要工具的效用。第一性原理模擬多細(xì)胞裝配體(如大腦)的前景更加黯淡。另一方面,所有這些考慮都是基于對(duì)現(xiàn)有仿真工具的推論,人們永遠(yuǎn)都不應(yīng)低估科研人員的創(chuàng)造力。當(dāng)前在計(jì)算科學(xué)、計(jì)算機(jī)硬件和生命科學(xué)方面無法預(yù)料的突破可能會(huì)使我們朝著目標(biāo)邁進(jìn)計(jì)算機(jī)模擬生物學(xué)的速度更快。
參考文獻(xiàn)
1。 E。 Schro?dinger, What is Life? The Physical Aspect of the Living Cell (Cambridge University Press, 1944)。
2。 R。 R。 Netz, W。 A。 Eaton, Estimating computational limits on theoretical descriptions of biological cells。 Proc。 Natl。 Acad。 Sci。 U.S.A。, 10.1073/pnas.2022753118 (2021)。
3。 K。 Lindorff-Larsen, S。 Piana, R。 O。 Dror, D。 E。 Shaw, How fast-folding proteins fold。 Science 334, 517–520 (2011)。
4。 I。 Yu et al。, Biomolecular interactions modulate macromolecular structure and dynamics in atomistic model of a bacterial cytoplasm。 eLife 5, e19274 (2016)。
5。 G。 Henkelman, H。 Jo ? nsson, T。 Lelie?vre, N。 Mousseau, A。 F。 Voter, “Long-timescale simulations: Challenges, pitfalls, best practices, for development and applications” in Handbook of Materials Modeling, W。 Andreoni, S。 Yip, Eds。 (Springer, 2020), pp。 1–10。
6。 M。 Bogojeski, L。 Vogt-Maranto, M。 E。 Tuckerman, K。 R。 Mu?ller, K。 Burke, Quantum chemical accuracy from density functional approximations via machine learning。 Nat。 Commun。 11, 5223 (2020)。
7。 R。 Elber, D。 E。 Makarov, H。 Orland, Molecular Kinetics in Condense Phases: Theory, Simulation, and Analysis (John Wiley, 2020)。
8。 R。 Elber, Perspective: Computer simulations of long time dynamics。 J。 Chem。 Phys。 144, 060901 (2016)。
9。 G。 Henkelman, H。 Jo ? nsson, Long time scale kinetic Monte Carlo simulations without lattice approximation and predefined event table。 J。 Chem。 Phys。 115, 9657–9666 (2001)。?
關(guān)注【深圳科普】微信公眾號(hào),在對(duì)話框:
回復(fù)【最新活動(dòng)】,了解近期科普活動(dòng)
回復(fù)【科普行】,了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營】,了解最新科普研學(xué)營
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識(shí)】,學(xué)習(xí)觀鳥相關(guān)科普知識(shí)
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動(dòng)詳情