隨筆鳳凰: 快讀2024年諾貝爾化學獎 - 「破解蛋白質奇妙結構的密碼」

2024年諾貝爾化學獎的一半獎金頒發給大衛·貝克，以表彰他在計算蛋白質設計方面的貢獻；另一半獎金共同授予傑米斯·哈薩比斯和約翰·M·江珀，以表彰他們在蛋白質結構預測方面的卓越成就。

2024年諾貝爾化學獎和物理學獎同樣都涉及了AI技術，但化學獎得主的研究核心是「預測蛋白質結構」，而AI在這裡僅作為輔助工具。AI的應用大大加速了蛋白質結構預測的進程，並證實了可以利用AI開發全新的蛋白質，這對未來的影響深遠，將促進新藥物的開發、疫苗的研製以及納米材料的創新。與此同時，AI不僅是理論探討的工具，還在分子層面的實際預測與設計中發揮了關鍵作用。

儘管研究中涉及到許多與化學無直接關係的部分，例如如何設計和調整AI系統AlphaFold，但總體而言，OT認為這是一項真正的研究創新。AI系統的設計與調教雖然屬於技術領域，但這些技術最終服務於化學領域的重大挑戰，這使得它們在研究中的應用更具突破性。這一創新無疑將在未來生物化學和醫學領域中產生深遠影響。

有趣的是，這次的三位得獎者本科背景都與化學無直接關聯。傑米斯·哈薩比斯是一位軟體工程師，他創立了DeepMind，後來被Google併購。約翰·江珀因對宇宙的熱愛開始學習物理和數學，2011年攻讀理論物理學博士時，為了節省有限的計算資源，他開發了更簡單且具創意的蛋白質動力學模擬方法，後來加入Google與哈薩比斯共同開發了AlphaFold。大衛·貝克在哈佛大學學習時攻讀的是哲學和社會科學，後來轉向細胞生物學，並在1990年代末開發出預測蛋白質結構的計算軟體Rosetta。三位得獎者均憑藉自己開發的軟體參加了CASP（蛋白質結構預測關鍵評估）競賽，並取得了優異成績。這三人的故事本身也非常鼓舞人心，說明只要懷抱興趣並願意投入，一定能在其中找到探索的途徑。

本文讓我們一起來仔細閱讀諾貝爾委員會如何詮釋今年的化學獎。

圖片來源：Nobel Price官方網站

本篇文章不僅供OT自我學習使用，也歡迎各位朋友轉載並註明原文網址。

2024年諾貝爾化學獎關於蛋白質，這是生命巧妙的化學工具。大衛·貝克實現了幾乎不可能的壯舉——構建了全新的蛋白質種類。德米斯·哈薩比斯和約翰·江珀則開發出一個人工智慧模型，解決了一個50年的難題：預測蛋白質的複雜結構。這些發現具有巨大的潛力。
生命的多樣性證明了蛋白質作為化學工具的驚人能力。它們控制並驅動所有的化學反應，這些反應共同構成了生命的基礎。蛋白質還充當激素、信號物質、抗體以及不同組織的建築材料。
「今年獲得表彰的發現之一是關於構建非凡的蛋白質。另一個發現則實現了一個50年的夢想：從氨基酸序列預測蛋白質結構。這兩項發現都開啟了廣闊的可能性。」諾貝爾化學獎委員會主席海納·林克說。
蛋白質通常由20種不同的氨基酸組成，它們可以被形容為生命的構建基石。2003年，大衛·貝克成功使用這些基石設計出一種全新的、與其他蛋白質不同的蛋白質。從那時起，他的研究團隊創造了一系列富有創意的蛋白質，包括可以用作藥物、疫苗、納米材料和微型感應器的蛋白質。
第二項發現涉及蛋白質結構的預測。蛋白質中的氨基酸以長鏈相連，這些鏈折疊形成三維結構，決定了蛋白質的功能。自1970年代以來，研究人員一直嘗試從氨基酸序列預測蛋白質結構，但這一過程極為困難。然而，四年前，這一領域取得了驚人的突破。
2020年，德米斯·哈薩比斯和約翰·江珀推出了一個名為AlphaFold2的人工智慧模型。在這個模型的幫助下，他們能夠預測幾乎所有200萬種已被研究人員識別出的蛋白質結構。自從這一突破以來，來自190個國家的超過200萬人已經使用了AlphaFold2。它在眾多科學應用中，包括幫助研究人員更好地理解抗生素抗性，並創造出能夠分解塑料的酶的圖像。
沒有蛋白質，生命不可能存在。我們現在能夠預測蛋白質結構並設計我們自己的蛋白質，這對人類具有極大的益處。

概述

化學家們長期以來夢想能夠完全理解並掌握生命的化學工具——蛋白質。如今，這個夢想已經觸手可及。傑米斯·哈薩比斯和約翰·M·江珀成功利用人工智慧預測了幾乎所有已知蛋白質的結構。大衛·貝克則學會如何掌控生命的基本構建單元，並創造全新的蛋白質。這些發現的潛力巨大。

生命繁盛的化學反應是如何實現的？答案在於蛋白質，這些被稱為奇妙的化學工具。蛋白質通常由20種氨基酸組成，這些氨基酸可以以無限的方式組合。在DNA中儲存的資訊作為藍圖，氨基酸在我們的細胞中連接成長長的鏈條。

接著蛋白質的魔法發生了：氨基酸鏈扭曲並折疊成一個獨特的三維結構（有時是唯一的）(見圖1)。這個結構賦予了蛋白質其功能。有些蛋白質成為化學建築塊，構建肌肉、角或羽毛，另一些則成為激素或抗體。許多蛋白質則形成酶，這些酶以驚人的精確度驅動生命的化學反應。存在於細胞表面的蛋白質也很重要，充當細胞與周圍環境之間的通信通道。

我們很難誇大這20種氨基酸作為生命化學構建基石的潛力。2024年諾貝爾化學獎涉及在全新層次上理解並掌握這些氨基酸。一半獎項授予傑米斯·哈薩比斯和約翰·江珀，他們利用人工智慧成功解決了化學家長達50年來的難題：從氨基酸序列預測蛋白質的三維結構。這使他們能夠預測幾乎所有200萬種已知蛋白質的結構。另一半獎項授予大衛·貝克，他開發了計算方法，實現了許多人認為不可能的目標：創造以前不存在的蛋白質，這些蛋白質在許多情況下具有全新的功能。

2024年諾貝爾化學獎表彰了兩項不同的發現，但它們密切相關。為了理解今年得主所克服的挑戰，我們需要回溯到現代生物化學的黎明時期。

蛋白質的最初影像

自十九世紀以來，化學家就知道蛋白質對生命過程的重要性，但直到1950年代，化學工具才足夠精確，讓研究人員開始更詳細地探索蛋白質。劍橋大學的約翰·肯德魯和馬克斯·佩魯茲做出了開創性的發現，在1950年代末，他們成功使用一種稱為X射線晶體學的方法，展示了蛋白質的首個三維模型。為表彰這一發現，他們於1962年獲得了諾貝爾化學獎。自此以後，研究人員主要使用X射線晶體學，並經過巨大努力，成功製作了大約20萬種不同蛋白質的圖像，這為2024年諾貝爾化學獎奠定了基礎。

圖1. 一個蛋白質可以由數十個至數千個氨基酸組成。氨基酸鏈折疊成三維結構，這對蛋白質的功能具有決定性作用。
(圖片來源：Nobel Price官方網站)

謎題：蛋白質如何找到其獨特的結構？

美國科學家克里斯蒂安·安芬森做出了另一項早期發現。他使用各種化學技巧，設法讓現有的蛋白質展開，然後再次折疊起來。值得注意的是，蛋白質每次都以完全相同的形狀重新折疊。1961年，他得出結論，蛋白質的三維結構完全由其氨基酸序列決定。這使他於1972年獲得了諾貝爾化學獎。

然而，安芬森的邏輯包含一個悖論，另一位美國科學家賽勒斯·萊文塔爾在1969年指出，他計算出，即使一個蛋白質僅由100個氨基酸組成，理論上它也可以形成至少10^47種不同的三維結構。如果氨基酸鏈隨機折疊，找到正確的蛋白質結構所需的時間將超過宇宙的年齡。而在細胞中，這一過程只需幾毫秒。因此，氨基酸鏈實際上是如何折疊的呢？

安芬森的發現和萊文塔爾的悖論表明，折疊是一個預定過程。而且，重要的是，所有有關蛋白質如何折疊的信息都必須存在於氨基酸序列中。

投下生物化學重大挑戰的戰書

上述見解引出了另一個決定性認識——如果化學家知道蛋白質的氨基酸序列，他們應該能夠預測其三維結構。這是個激動人心的想法。如果成功，他們將不再需要使用繁瑣的X射線晶體學技術，節省大量時間。他們還能為所有無法使用X射線晶體學的蛋白質生成結構。

這些邏輯結論為成為生物化學重大挑戰的「預測問題」投下了戰書。為了促進該領域的快速發展，1994年，研究人員發起了一個名為「蛋白質結構預測關鍵評估」（CASP）的項目，這個項目後來發展為一場競賽。每隔一年，來自全球的研究人員獲得了剛剛確定結構的蛋白質的氨基酸序列。然而，這些結構對參賽者來說是保密的。挑戰在於根據已知的氨基酸序列預測蛋白質結構。

CASP吸引了許多研究人員，但解決預測問題極其困難。研究人員提交的預測與實際結構之間的吻合度幾乎沒有改善。直到2018年，一位國際象棋大師、神經科學專家以及人工智慧的先驅進入了這個領域，突破才得以發生。

國際象棋大師進入蛋白質奧林匹克賽

讓我們簡單回顧一下傑米斯·哈薩比斯的背景：他在四歲時開始學習國際象棋，並在13歲時達到大師級水準。在青少年時期，他開始了程式設計和成功的遊戲開發事業。他開始探索人工智慧，並涉足神經科學，取得了幾項革命性的發現。他將大腦研究所得應用於開發更好的人工神經網路。2010年，他共同創立了DeepMind公司，該公司為流行的桌遊開發出精湛的AI模型。該公司於2014年被谷歌收購，兩年後，DeepMind因為達成了許多人當時認為是AI的「聖杯」——擊敗世界上最古老的棋類遊戲之一「圍棋」的冠軍玩家——而備受矚目。

然而，對哈薩比斯來說，圍棋並非終點，而是發展更好AI模型的手段。在這場勝利之後，他的團隊準備解決對人類更為重要的問題，因此他於2018年報名參加了第十三屆CASP競賽。

傑米斯·哈薩比斯的AI模型出乎意料的勝利

在過去的CASP比賽中，研究人員預測的蛋白質結構準確度最多達到40%。然而，使用他們的AI模型AlphaFold，哈薩比斯的團隊達到了將近60%的準確度。儘管他們贏得了比賽，這一優異的結果也讓許多人感到驚訝——這是一個意想不到的進步，但仍然不夠好。要取得真正的成功，預測的準確度必須達到與目標結構相比的90%。

以下是你提供的文本翻譯成繁體中文：圖2. AlphaFold2 是如何運作的？
(圖片來源：Nobel Price官方網站)

哈薩比斯和他的團隊繼續改進AlphaFold——但不論他們多麼努力，算法始終無法徹底突破。事實是，他們走到了死胡同。團隊感到疲憊，但一位相對較新的員工對如何改進AI模型有決定性的想法：這位員工便是約翰·江珀。

約翰·江珀接受生物化學重大挑戰的戰書

約翰·江珀對宇宙的著迷讓他開始學習物理和數學。然而，在2008年，他開始在一家公司工作，這家公司使用超級電腦來模擬蛋白質及其動力學，這讓他意識到物理學知識可以幫助解決醫學問題。

江珀將他對蛋白質的新興興趣帶到了2011年，當時他開始攻讀理論物理學的博士學位。為了節省大學有限的計算資源，他開始開發更簡單且更具創意的方法來模擬蛋白質動力學。很快，他也接受了生物化學重大挑戰的戰書。2017年，他剛剛完成博士學位時，聽到谷歌DeepMind秘密進行蛋白質結構預測的傳聞。於是他寄出了求職申請。由於他在蛋白質模擬方面的經驗，讓他對如何改進AlphaFold有了創新的想法，因此當團隊陷入停滯時，他被提拔了。江珀與哈薩比斯共同領導了這次徹底改革AI模型的工作。

全新AI模型的驚人結果

新版本的AlphaFold2融合了江珀對蛋白質的知識。團隊還開始使用AI領域最近重大突破背後的創新技術：稱為變壓器（transformer）的神經網路。這些變壓器可以以比之前更靈活的方式在海量數據中尋找模式，並有效確定為達成特定目標應該專注於哪些內容。

團隊將AlphaFold2訓練於所有已知蛋白質結構和氨基酸序列的龐大數據庫中（見圖2），新的AI架構在第十四屆CASP比賽中開始提供良好的結果。

2020年，當CASP的組織者評估結果時，他們意識到生物化學50年的挑戰結束了。在大多數情況下，AlphaFold2的表現幾乎與X射線晶體學一樣出色，這令人驚嘆。當CASP的創始人之一約翰·莫爾特於2020年12月4日總結比賽時，他問道——現在該怎麼做？

我們稍後會回到這個問題。現在讓我們回顧另一位CASP的參與者。讓我們介紹2024年諾貝爾化學獎的另一半，它涉及從零開始創造新蛋白質的藝術。

一本關於細胞的教科書讓大衛·貝克改變了方向

當大衛·貝克開始在哈佛大學學習時，他選擇了哲學和社會科學。然而，在一次進化生物學課程中，他偶然發現了如今經典的教科書《分子細胞生物學》的第一版。這促使他改變了人生方向。他開始探索細胞生物學，最終對蛋白質結構著迷。1993年，當他在西雅圖的華盛頓大學開始擔任研究組負責人時，他接受了生物化學的重大挑戰。他利用巧妙的實驗，開始研究蛋白質如何折疊。這為他在1990年代末開始開發能夠預測蛋白質結構的計算軟體Rosetta提供了靈感。

1998年，貝克首次使用Rosetta參加CASP比賽，與其他參賽者相比，成績非常好。這次成功催生了一個新想法——大衛·貝克的團隊可以反向使用這個軟體。與其將氨基酸序列輸入Rosetta以獲得蛋白質結構，他們應該能夠輸入所需的蛋白質結構，並獲得對應的氨基酸序列建議，這將允許他們創造全新的蛋白質。

貝克成為蛋白質建構師

蛋白質設計領域——研究人員創造具有新功能的專屬蛋白質——在1990年代末開始蓬勃發展。在許多情況下，研究人員調整了現有的蛋白質，使其能夠執行諸如分解有害物質或作為化學製造業中的工具等功能。

然而，天然蛋白質的範圍有限。為了增加獲得全新功能蛋白質的潛力，貝克的研究團隊希望從頭開始創造它們。正如貝克所說：「如果你想造一架飛機，你不會從修改一隻鳥開始；相反，你應該了解空氣動力學的基本原理，並基於這些原理來建造飛行器。」

獨特的蛋白質誕生

構建全新蛋白質的領域稱為「從頭設計」（de novo設計）。研究團隊繪製了一種全新的蛋白質結構，然後使用Rosetta計算出哪種氨基酸序列能夠產生所需的蛋白質。為此，Rosetta在所有已知的蛋白質結構數據庫中搜索，並尋找與所需結構相似的蛋白質片段。利用對蛋白質能量景觀的基本知識，Rosetta優化了這些片段，並提出了氨基酸序列的建議。

為了驗證軟體的成功程度，貝克的研究團隊將建議的氨基酸序列基因引入細菌，使其產生所需的蛋白質。然後他們使用X射線晶體學確定了蛋白質結構。

結果顯示，Rosetta確實能夠構建蛋白質。研究人員開發的蛋白質Top7幾乎與他們設計的結構完全一致。

圖3. Top7——第一個與所有已知現存蛋白質完全不同的蛋白質。
(圖片來源：Nobel Price官方網站)

來自貝克實驗室的壯觀創造

Top7對於從事蛋白質設計的研究人員來說是晴天霹靂。此前，從頭設計的蛋白質只能模仿現有的結構。Top7的獨特結構在自然界中不存在。此外，該蛋白質由93個氨基酸組成，比之前任何使用從頭設計產生的蛋白質都要大。

貝克於2003年發表了他的發現。這是可以稱得上是非凡發展的第一步；貝克實驗室創造的許多壯觀蛋白質中的一部分可以在圖4中看到。他還釋放了Rosetta的程式碼，因此全球的研究社群得以繼續開發該軟體，並發現新的應用領域。

總結2024年諾貝爾化學獎：現在呢？

圖4. 使用貝克的程式Rosetta開發的蛋白質。
(圖片來源：Nobel Price官方網站)

曾經需要數年才能完成的工作現在只需幾分鐘

當傑米斯·哈薩比斯和約翰·江珀確認AlphaFold2確實有效時，他們計算了所有人類蛋白質的結構。隨後，他們幾乎預測了研究人員在地球生物體中發現的全部200萬種蛋白質的結構。

谷歌DeepMind也公開了AlphaFold2的程式碼，任何人都可以訪問它。這個AI模型成為研究人員的寶庫。到2024年10月，來自190個國家的超過200萬人已經使用了AlphaFold2。以前，獲得蛋白質結構常常需要數年，現在只需幾分鐘。該AI模型並不完美，但它會估計所生成結構的正確性，這樣研究人員就能知道預測的可靠程度。圖5展示了AlphaFold2幫助研究人員的眾多範例中的一些。

在2020年CASP比賽後，當大衛·貝克意識到基於變壓器的AI模型的潛力時，他將其中一個添加到Rosetta中，這也促進了從頭設計蛋白質的進展。近年來，貝克實驗室不斷出現一個又一個令人驚嘆的蛋白質創造（見圖4）。

令人目眩的發展，造福人類

蛋白質作為化學工具的驚人多樣性反映在生命的巨大多樣性中。如今我們能夠如此輕鬆地可視化這些小型分子機器的結構，實在令人驚嘆；這使我們能更好地理解生命如何運作，包括為什麼某些疾病會發展、抗生素抗性是如何產生的，或者為什麼某些微生物能夠分解塑料。

能夠創造具備全新功能的蛋白質同樣令人震撼。這將帶來新型納米材料、靶向藥物、更快速的疫苗開發、極小型的感測器，以及更環保的化學工業——這些只是眾多造福人類的應用之一。

大衛·貝克，1962年出生於美國華盛頓州西雅圖。1989年獲得美國加利福尼亞州柏克萊加州大學博士學位。現任美國華盛頓大學教授以及美國霍華德·休斯醫學研究所研究員。

傑米斯·哈薩比斯，1976年出生於英國倫敦。2009年獲得英國倫敦大學學院博士學位。現任谷歌DeepMind執行長，位於英國倫敦。

約翰·M·江珀，1985年出生於美國阿肯色州小石城。2017年獲得美國伊利諾州芝加哥大學博士學位。現任谷歌DeepMind資深研究科學家，位於英國倫敦。

參考資料：

The Nobel Prize in Physics 2024

民國113年10月15日

OTORI Z.+

隨筆鳳凰

2024年10月15日星期二