2024年諾貝爾化學獎的一半獎金頒發給大衛·貝克,以表彰他在計算蛋白質設計方面的貢獻;另一半獎金共同授予傑米斯·哈薩比斯和約翰·M·江珀,以表彰他們在蛋白質結構預測方面的卓越成就。
2024年諾貝爾化學獎和物理學獎同樣都涉及了AI技術,但化學獎得主的研究核心是「預測蛋白質結構」,而AI在這裡僅作為輔助工具。AI的應用大大加速了蛋白質結構預測的進程,並證實了可以利用AI開發全新的蛋白質,這對未來的影響深遠,將促進新藥物的開發、疫苗的研製以及納米材料的創新。與此同時,AI不僅是理論探討的工具,還在分子層面的實際預測與設計中發揮了關鍵作用。
儘管研究中涉及到許多與化學無直接關係的部分,例如如何設計和調整AI系統AlphaFold,但總體而言,OT認為這是一項真正的研究創新。AI系統的設計與調教雖然屬於技術領域,但這些技術最終服務於化學領域的重大挑戰,這使得它們在研究中的應用更具突破性。這一創新無疑將在未來生物化學和醫學領域中產生深遠影響。
有趣的是,這次的三位得獎者本科背景都與化學無直接關聯。傑米斯·哈薩比斯是一位軟體工程師,他創立了DeepMind,後來被Google併購。約翰·江珀因對宇宙的熱愛開始學習物理和數學,2011年攻讀理論物理學博士時,為了節省有限的計算資源,他開發了更簡單且具創意的蛋白質動力學模擬方法,後來加入Google與哈薩比斯共同開發了AlphaFold。大衛·貝克在哈佛大學學習時攻讀的是哲學和社會科學,後來轉向細胞生物學,並在1990年代末開發出預測蛋白質結構的計算軟體Rosetta。三位得獎者均憑藉自己開發的軟體參加了CASP(蛋白質結構預測關鍵評估)競賽,並取得了優異成績。這三人的故事本身也非常鼓舞人心,說明只要懷抱興趣並願意投入,一定能在其中找到探索的途徑。
本文讓我們一起來仔細閱讀諾貝爾委員會如何詮釋今年的化學獎。
圖片來源:Nobel Price官方網站 |
本篇文章不僅供OT自我學習使用,也歡迎各位朋友轉載並註明原文網址。
2024年諾貝爾化學獎關於蛋白質,這是生命巧妙的化學工具。大衛·貝克實現了幾乎不可能的壯舉——構建了全新的蛋白質種類。德米斯·哈薩比斯和約翰·江珀則開發出一個人工智慧模型,解決了一個50年的難題:預測蛋白質的複雜結構。這些發現具有巨大的潛力。
生命的多樣性證明了蛋白質作為化學工具的驚人能力。它們控制並驅動所有的化學反應,這些反應共同構成了生命的基礎。蛋白質還充當激素、信號物質、抗體以及不同組織的建築材料。
「今年獲得表彰的發現之一是關於構建非凡的蛋白質。另一個發現則實現了一個50年的夢想:從氨基酸序列預測蛋白質結構。這兩項發現都開啟了廣闊的可能性。」諾貝爾化學獎委員會主席海納·林克說。
蛋白質通常由20種不同的氨基酸組成,它們可以被形容為生命的構建基石。2003年,大衛·貝克成功使用這些基石設計出一種全新的、與其他蛋白質不同的蛋白質。從那時起,他的研究團隊創造了一系列富有創意的蛋白質,包括可以用作藥物、疫苗、納米材料和微型感應器的蛋白質。
第二項發現涉及蛋白質結構的預測。蛋白質中的氨基酸以長鏈相連,這些鏈折疊形成三維結構,決定了蛋白質的功能。自1970年代以來,研究人員一直嘗試從氨基酸序列預測蛋白質結構,但這一過程極為困難。然而,四年前,這一領域取得了驚人的突破。
2020年,德米斯·哈薩比斯和約翰·江珀推出了一個名為AlphaFold2的人工智慧模型。在這個模型的幫助下,他們能夠預測幾乎所有200萬種已被研究人員識別出的蛋白質結構。自從這一突破以來,來自190個國家的超過200萬人已經使用了AlphaFold2。它在眾多科學應用中,包括幫助研究人員更好地理解抗生素抗性,並創造出能夠分解塑料的酶的圖像。
沒有蛋白質,生命不可能存在。我們現在能夠預測蛋白質結構並設計我們自己的蛋白質,這對人類具有極大的益處。
概述
化學家們長期以來夢想能夠完全理解並掌握生命的化學工具——蛋白質。如今,這個夢想已經觸手可及。傑米斯·哈薩比斯和約翰·M·江珀成功利用人工智慧預測了幾乎所有已知蛋白質的結構。大衛·貝克則學會如何掌控生命的基本構建單元,並創造全新的蛋白質。這些發現的潛力巨大。
生命繁盛的化學反應是如何實現的?答案在於蛋白質,這些被稱為奇妙的化學工具。蛋白質通常由20種氨基酸組成,這些氨基酸可以以無限的方式組合。在DNA中儲存的資訊作為藍圖,氨基酸在我們的細胞中連接成長長的鏈條。
接著蛋白質的魔法發生了:氨基酸鏈扭曲並折疊成一個獨特的三維結構(有時是唯一的)(見圖1)。這個結構賦予了蛋白質其功能。有些蛋白質成為化學建築塊,構建肌肉、角或羽毛,另一些則成為激素或抗體。許多蛋白質則形成酶,這些酶以驚人的精確度驅動生命的化學反應。存在於細胞表面的蛋白質也很重要,充當細胞與周圍環境之間的通信通道。
我們很難誇大這20種氨基酸作為生命化學構建基石的潛力。2024年諾貝爾化學獎涉及在全新層次上理解並掌握這些氨基酸。一半獎項授予傑米斯·哈薩比斯和約翰·江珀,他們利用人工智慧成功解決了化學家長達50年來的難題:從氨基酸序列預測蛋白質的三維結構。這使他們能夠預測幾乎所有200萬種已知蛋白質的結構。另一半獎項授予大衛·貝克,他開發了計算方法,實現了許多人認為不可能的目標:創造以前不存在的蛋白質,這些蛋白質在許多情況下具有全新的功能。
2024年諾貝爾化學獎表彰了兩項不同的發現,但它們密切相關。為了理解今年得主所克服的挑戰,我們需要回溯到現代生物化學的黎明時期。
蛋白質的最初影像
自十九世紀以來,化學家就知道蛋白質對生命過程的重要性,但直到1950年代,化學工具才足夠精確,讓研究人員開始更詳細地探索蛋白質。劍橋大學的約翰·肯德魯和馬克斯·佩魯茲做出了開創性的發現,在1950年代末,他們成功使用一種稱為X射線晶體學的方法,展示了蛋白質的首個三維模型。為表彰這一發現,他們於1962年獲得了諾貝爾化學獎。自此以後,研究人員主要使用X射線晶體學,並經過巨大努力,成功製作了大約20萬種不同蛋白質的圖像,這為2024年諾貝爾化學獎奠定了基礎。
圖1. 一個蛋白質可以由數十個至數千個氨基酸組成。氨基酸鏈折疊成三維結構,這對蛋白質的功能具有決定性作用。 (圖片來源:Nobel Price官方網站) |
謎題:蛋白質如何找到其獨特的結構?
美國科學家克里斯蒂安·安芬森做出了另一項早期發現。他使用各種化學技巧,設法讓現有的蛋白質展開,然後再次折疊起來。值得注意的是,蛋白質每次都以完全相同的形狀重新折疊。1961年,他得出結論,蛋白質的三維結構完全由其氨基酸序列決定。這使他於1972年獲得了諾貝爾化學獎。
然而,安芬森的邏輯包含一個悖論,另一位美國科學家賽勒斯·萊文塔爾在1969年指出,他計算出,即使一個蛋白質僅由100個氨基酸組成,理論上它也可以形成至少10^47種不同的三維結構。如果氨基酸鏈隨機折疊,找到正確的蛋白質結構所需的時間將超過宇宙的年齡。而在細胞中,這一過程只需幾毫秒。因此,氨基酸鏈實際上是如何折疊的呢?
安芬森的發現和萊文塔爾的悖論表明,折疊是一個預定過程。而且,重要的是,所有有關蛋白質如何折疊的信息都必須存在於氨基酸序列中。
投下生物化學重大挑戰的戰書
上述見解引出了另一個決定性認識——如果化學家知道蛋白質的氨基酸序列,他們應該能夠預測其三維結構。這是個激動人心的想法。如果成功,他們將不再需要使用繁瑣的X射線晶體學技術,節省大量時間。他們還能為所有無法使用X射線晶體學的蛋白質生成結構。
這些邏輯結論為成為生物化學重大挑戰的「預測問題」投下了戰書。為了促進該領域的快速發展,1994年,研究人員發起了一個名為「蛋白質結構預測關鍵評估」(CASP)的項目,這個項目後來發展為一場競賽。每隔一年,來自全球的研究人員獲得了剛剛確定結構的蛋白質的氨基酸序列。然而,這些結構對參賽者來說是保密的。挑戰在於根據已知的氨基酸序列預測蛋白質結構。
CASP吸引了許多研究人員,但解決預測問題極其困難。研究人員提交的預測與實際結構之間的吻合度幾乎沒有改善。直到2018年,一位國際象棋大師、神經科學專家以及人工智慧的先驅進入了這個領域,突破才得以發生。
國際象棋大師進入蛋白質奧林匹克賽
讓我們簡單回顧一下傑米斯·哈薩比斯的背景:他在四歲時開始學習國際象棋,並在13歲時達到大師級水準。在青少年時期,他開始了程式設計和成功的遊戲開發事業。他開始探索人工智慧,並涉足神經科學,取得了幾項革命性的發現。他將大腦研究所得應用於開發更好的人工神經網路。2010年,他共同創立了DeepMind公司,該公司為流行的桌遊開發出精湛的AI模型。該公司於2014年被谷歌收購,兩年後,DeepMind因為達成了許多人當時認為是AI的「聖杯」——擊敗世界上最古老的棋類遊戲之一「圍棋」的冠軍玩家——而備受矚目。
然而,對哈薩比斯來說,圍棋並非終點,而是發展更好AI模型的手段。在這場勝利之後,他的團隊準備解決對人類更為重要的問題,因此他於2018年報名參加了第十三屆CASP競賽。
傑米斯·哈薩比斯的AI模型出乎意料的勝利
在過去的CASP比賽中,研究人員預測的蛋白質結構準確度最多達到40%。然而,使用他們的AI模型AlphaFold,哈薩比斯的團隊達到了將近60%的準確度。儘管他們贏得了比賽,這一優異的結果也讓許多人感到驚訝——這是一個意想不到的進步,但仍然不夠好。要取得真正的成功,預測的準確度必須達到與目標結構相比的90%。
以下是你提供的文本翻譯成繁體中文: 圖2. AlphaFold2 是如何運作的? (圖片來源:Nobel Price官方網站) |
哈薩比斯和他的團隊繼續改進AlphaFold——但不論他們多麼努力,算法始終無法徹底突破。事實是,他們走到了死胡同。團隊感到疲憊,但一位相對較新的員工對如何改進AI模型有決定性的想法:這位員工便是約翰·江珀。
約翰·江珀接受生物化學重大挑戰的戰書
約翰·江珀對宇宙的著迷讓他開始學習物理和數學。然而,在2008年,他開始在一家公司工作,這家公司使用超級電腦來模擬蛋白質及其動力學,這讓他意識到物理學知識可以幫助解決醫學問題。
江珀將他對蛋白質的新興興趣帶到了2011年,當時他開始攻讀理論物理學的博士學位。為了節省大學有限的計算資源,他開始開發更簡單且更具創意的方法來模擬蛋白質動力學。很快,他也接受了生物化學重大挑戰的戰書。2017年,他剛剛完成博士學位時,聽到谷歌DeepMind秘密進行蛋白質結構預測的傳聞。於是他寄出了求職申請。由於他在蛋白質模擬方面的經驗,讓他對如何改進AlphaFold有了創新的想法,因此當團隊陷入停滯時,他被提拔了。江珀與哈薩比斯共同領導了這次徹底改革AI模型的工作。
全新AI模型的驚人結果
新版本的AlphaFold2融合了江珀對蛋白質的知識。團隊還開始使用AI領域最近重大突破背後的創新技術:稱為變壓器(transformer)的神經網路。這些變壓器可以以比之前更靈活的方式在海量數據中尋找模式,並有效確定為達成特定目標應該專注於哪些內容。
團隊將AlphaFold2訓練於所有已知蛋白質結構和氨基酸序列的龐大數據庫中(見圖2),新的AI架構在第十四屆CASP比賽中開始提供良好的結果。
2020年,當CASP的組織者評估結果時,他們意識到生物化學50年的挑戰結束了。在大多數情況下,AlphaFold2的表現幾乎與X射線晶體學一樣出色,這令人驚嘆。當CASP的創始人之一約翰·莫爾特於2020年12月4日總結比賽時,他問道——現在該怎麼做?
我們稍後會回到這個問題。現在讓我們回顧另一位CASP的參與者。讓我們介紹2024年諾貝爾化學獎的另一半,它涉及從零開始創造新蛋白質的藝術。
一本關於細胞的教科書讓大衛·貝克改變了方向
當大衛·貝克開始在哈佛大學學習時,他選擇了哲學和社會科學。然而,在一次進化生物學課程中,他偶然發現了如今經典的教科書《分子細胞生物學》的第一版。這促使他改變了人生方向。他開始探索細胞生物學,最終對蛋白質結構著迷。1993年,當他在西雅圖的華盛頓大學開始擔任研究組負責人時,他接受了生物化學的重大挑戰。他利用巧妙的實驗,開始研究蛋白質如何折疊。這為他在1990年代末開始開發能夠預測蛋白質結構的計算軟體Rosetta提供了靈感。
1998年,貝克首次使用Rosetta參加CASP比賽,與其他參賽者相比,成績非常好。這次成功催生了一個新想法——大衛·貝克的團隊可以反向使用這個軟體。與其將氨基酸序列輸入Rosetta以獲得蛋白質結構,他們應該能夠輸入所需的蛋白質結構,並獲得對應的氨基酸序列建議,這將允許他們創造全新的蛋白質。
貝克成為蛋白質建構師
蛋白質設計領域——研究人員創造具有新功能的專屬蛋白質——在1990年代末開始蓬勃發展。在許多情況下,研究人員調整了現有的蛋白質,使其能夠執行諸如分解有害物質或作為化學製造業中的工具等功能。
然而,天然蛋白質的範圍有限。為了增加獲得全新功能蛋白質的潛力,貝克的研究團隊希望從頭開始創造它們。正如貝克所說:「如果你想造一架飛機,你不會從修改一隻鳥開始;相反,你應該了解空氣動力學的基本原理,並基於這些原理來建造飛行器。」
獨特的蛋白質誕生
構建全新蛋白質的領域稱為「從頭設計」(de novo設計)。研究團隊繪製了一種全新的蛋白質結構,然後使用Rosetta計算出哪種氨基酸序列能夠產生所需的蛋白質。為此,Rosetta在所有已知的蛋白質結構數據庫中搜索,並尋找與所需結構相似的蛋白質片段。利用對蛋白質能量景觀的基本知識,Rosetta優化了這些片段,並提出了氨基酸序列的建議。
為了驗證軟體的成功程度,貝克的研究團隊將建議的氨基酸序列基因引入細菌,使其產生所需的蛋白質。然後他們使用X射線晶體學確定了蛋白質結構。
結果顯示,Rosetta確實能夠構建蛋白質。研究人員開發的蛋白質Top7幾乎與他們設計的結構完全一致。
圖3. Top7——第一個與所有已知現存蛋白質完全不同的蛋白質。 (圖片來源:Nobel Price官方網站) |
來自貝克實驗室的壯觀創造
Top7對於從事蛋白質設計的研究人員來說是晴天霹靂。此前,從頭設計的蛋白質只能模仿現有的結構。Top7的獨特結構在自然界中不存在。此外,該蛋白質由93個氨基酸組成,比之前任何使用從頭設計產生的蛋白質都要大。
貝克於2003年發表了他的發現。這是可以稱得上是非凡發展的第一步;貝克實驗室創造的許多壯觀蛋白質中的一部分可以在圖4中看到。他還釋放了Rosetta的程式碼,因此全球的研究社群得以繼續開發該軟體,並發現新的應用領域。
總結2024年諾貝爾化學獎:現在呢?
圖4. 使用貝克的程式Rosetta開發的蛋白質。 (圖片來源:Nobel Price官方網站) |
曾經需要數年才能完成的工作現在只需幾分鐘
當傑米斯·哈薩比斯和約翰·江珀確認AlphaFold2確實有效時,他們計算了所有人類蛋白質的結構。隨後,他們幾乎預測了研究人員在地球生物體中發現的全部200萬種蛋白質的結構。
谷歌DeepMind也公開了AlphaFold2的程式碼,任何人都可以訪問它。這個AI模型成為研究人員的寶庫。到2024年10月,來自190個國家的超過200萬人已經使用了AlphaFold2。以前,獲得蛋白質結構常常需要數年,現在只需幾分鐘。該AI模型並不完美,但它會估計所生成結構的正確性,這樣研究人員就能知道預測的可靠程度。圖5展示了AlphaFold2幫助研究人員的眾多範例中的一些。
在2020年CASP比賽後,當大衛·貝克意識到基於變壓器的AI模型的潛力時,他將其中一個添加到Rosetta中,這也促進了從頭設計蛋白質的進展。近年來,貝克實驗室不斷出現一個又一個令人驚嘆的蛋白質創造(見圖4)。
令人目眩的發展,造福人類
蛋白質作為化學工具的驚人多樣性反映在生命的巨大多樣性中。如今我們能夠如此輕鬆地可視化這些小型分子機器的結構,實在令人驚嘆;這使我們能更好地理解生命如何運作,包括為什麼某些疾病會發展、抗生素抗性是如何產生的,或者為什麼某些微生物能夠分解塑料。
能夠創造具備全新功能的蛋白質同樣令人震撼。這將帶來新型納米材料、靶向藥物、更快速的疫苗開發、極小型的感測器,以及更環保的化學工業——這些只是眾多造福人類的應用之一。
大衛·貝克,1962年出生於美國華盛頓州西雅圖。1989年獲得美國加利福尼亞州柏克萊加州大學博士學位。現任美國華盛頓大學教授以及美國霍華德·休斯醫學研究所研究員。
傑米斯·哈薩比斯,1976年出生於英國倫敦。2009年獲得英國倫敦大學學院博士學位。現任谷歌DeepMind執行長,位於英國倫敦。
約翰·M·江珀,1985年出生於美國阿肯色州小石城。2017年獲得美國伊利諾州芝加哥大學博士學位。現任谷歌DeepMind資深研究科學家,位於英國倫敦。
參考資料:
沒有留言:
張貼留言