2024年10月15日 星期二

快讀2024年諾貝爾物理學獎 - 「使用物理學訓練人工神經網路」

2024年諾貝爾物理學獎頒發給約翰·J·霍普菲爾德及傑弗瑞·E·辛頓,以表彰他們在推動人工神經網路機器學習領域中的基礎性發現與發明。

對於今年的頒獎結果,OT確實感到有些驚訝,因為諾貝爾物理學獎歷來多數是表彰基礎物理的重大發現,而類神經網路則偏向於工程應用。將物理學應用於類神經網路的過程,對OT來說這樣的關聯有些牽強,彷彿是因應近年來人工智慧風潮而頒發的獎項。

首先,我們必須探討「人工智慧」是否應該被視為一門「科學」。科學的核心在於相同條件下進行相同的步驟能夠得到一致的結果,即具備可驗證性。然而,目前的人工智慧並不完全符合這一標準,甚至許多AI系統的結果生成過程無法完全被重複驗證。雖然隨著大數據的發展,AI在圖像識別和語音識別領域取得了巨大進展,但從科學方法的角度來看,AI尤其是基於深度學習的系統仍然面臨兩大挑戰:

  1. 可重現性問題:人工智慧,尤其是深度神經網路,依賴於大量數據的訓練,結果往往受到初始條件、隨機因素及數據集特徵的影響。即使使用相同的神經網路架構,不同的訓練過程可能導致不同的結果。這與科學實驗中所要求的重複性並不一致,因此許多批評者認為,這樣的技術難以符合傳統意義上的「科學」。
  2. 不可解釋性問題:當前的深度學習模型大多是「黑箱」過程,難以清楚解釋其內部如何產生特定結果。這導致我們無法輕易追蹤模型的決策邏輯,進而影響結果的可信度。這一點在醫療診斷或司法系統等應用中尤為引發關注,因為結果的可解釋性對這些領域至關重要。

儘管如此,人工智慧領域仍然結合了許多科學知識,如概率統計、優化算法、信息理論等,這些無疑都是基於嚴格的數學基礎。尤其在影像識別和語音識別等應用中,隨著大數據的擴展,AI模型已能在大規模測試中產生穩定的一致結果。但OT認為這些應用更多依賴數學模型和大數據的輔助,而非基於物理學的核心發現。

OT的想法是將類神經網路與物理學聯繫在一起可能有些牽強。從今年的諾貝爾物理學獎背景資料來看,獎項確實試圖將人工神經網路與物理學中的概念(如自旋模型和能量景觀)進行對比和聯繫。這種聯繫在科學上並非毫無根據,因為神經網路的數學模型與統計物理中的某些模型(如玻爾茲曼機和自旋理論)確實有相似之處。像約翰·霍普菲爾德這樣的物理學家,對這些領域也做出了重要貢獻。然而,這樣的關聯在當前AI熱潮的背景下,可能更多是對於AI技術廣泛應用的認可,也可能在未來有助於解決上述提到的「可重現性問題」以及「不可解釋性問題」。諾貝爾委員會或許希望通過頒發這個獎項,承認AI技術對現代社會的巨大貢獻。

如果真是如此,那麼這個獎項一方面反映了神經網路在物理學中的根源和應用,另一方面也象徵著對當前AI技術的認可。畢竟,這些技術已經深刻改變了我們的生活與科學發展。讓我們一起來仔細閱讀諾貝爾委員會如何詮釋今年的物理學獎。


本圖來自:諾貝爾獎官方網站

本篇文章不僅供OT自我學習使用,也歡迎各位朋友轉載並註明原文網址。


今年的兩位物理學諾貝爾獎得主使用物理學的工具開發了今天強大的機器學習的基礎方法。約翰·霍普菲爾德創建了一種聯想記憶,能夠儲存和重建圖像以及其他類型的數據模式。傑弗瑞·辛頓發明了一種能夠自主發現數據特徵的方法,從而可以執行如識別圖像中特定元素的任務。

當我們談論人工智慧時,通常指的是使用人工神經網路的機器學習。這項技術最初是受到大腦結構的啟發。在人工神經網路中,大腦的神經元由不同值的節點表示。這些節點通過類似於突觸的連接相互影響,這些連接可以變強或變弱。網路通過訓練來發展,例如通過在同時具有高值的節點之間建立更強的連接。從1980年代以來,今年的得主一直在人工神經網路領域進行重要的工作。

約翰·霍普菲爾德發明了一種使用保存和重建模式方法的網路。我們可以將這些節點想像為像素。霍普菲爾德網路利用描述材料特性(如原子自旋)的物理學。每個原子都像一個小磁鐵。整個網路用類似於物理學中自旋系統中的能量來描述,並通過找到節點間連接的值來訓練,使儲存的圖像具有低能量。當霍普菲爾德網路接收到一個扭曲或不完整的圖像時,它會逐步處理節點並更新其值,從而使網路的能量下降。這樣,網路逐步找到與輸入的有缺陷圖像最相似的儲存圖像。

傑弗里·辛頓以霍普菲爾德網路為基礎,創建了一個使用不同方法的新網路:玻爾茲曼機。這種網路可以學習識別某種類型數據的特徵元素。辛頓使用了統計物理學的工具,即研究由許多相似組成部分構成的系統的科學。這台機器通過輸入一些很可能出現的範例來進行訓練。玻爾茲曼機可以用來分類圖像或創建該機器訓練模式的新例子。辛頓基於這項工作,促進了機器學習的當前爆炸性發展。

「得主的工作已經帶來了極大的益處。在物理學中,我們在開發具有特定屬性的新材料等廣泛領域中使用人工神經網路。」諾貝爾物理學獎委員會主席艾倫·穆恩斯說。


概述

今年的獲獎者使用物理學工具構建了奠定今日強大機器學習基礎的方法。約翰·霍普菲爾德創建了一種能夠儲存和重建信息的結構。傑弗瑞·辛頓則發明了一種能夠自主發現數據特性的技術,這在現今使用的大型人工神經網路中變得極為重要。

許多人已經體驗到,電腦可以在語言之間進行翻譯、解讀圖像,甚至進行合理的對話。或許較少人知道的是,這類技術長期以來在研究中扮演了重要角色,特別是在整理和分析海量數據的過程中。過去十五到二十年間,機器學習的發展突飛猛進,其結構稱為人工神經網路。如今,當我們談論人工智慧時,通常指的就是這類技術。

雖然電腦不能思考,但機器現在可以模仿某些功能,如記憶和學習。今年的物理學獎得主幫助實現了這一點。他們運用物理學的基本概念和方法,開發出利用網路結構處理信息的技術。

機器學習不同於傳統軟體,傳統軟體像是一種食譜,接收數據後,依據明確的描述進行處理並產生結果,就像有人根據食譜準備食材並製作蛋糕。機器學習則是通過範例來學習,讓電腦能解決那些太過模糊或複雜,無法用逐步指令處理的問題。例如,解讀圖片以識別其中的物體。


模仿大腦

人工神經網路利用整個網路結構來處理信息。其靈感最初來自於對大腦如何運作的理解。在1940年代,研究人員開始推測支撐大腦神經元和突觸網路的數學原理。心理學也提供了一部分線索,來自神經科學家唐納德·赫布提出的假設:當神經元一同作用時,它們之間的連接會被加強,這就是學習的過程。

後來,這些想法促使研究人員嘗試透過建造人工神經網路的電腦模擬來重現大腦網路的運作。在這些網路中,大腦的神經元被節點模擬,節點有不同的數值,突觸則被節點之間的連接表示,這些連接可以變強或變弱。赫布的假設至今仍是人工網路通過「訓練」更新過程中的基本規則之一。

1960年代末,一些不太鼓舞人心的理論結果讓許多研究人員懷疑這些神經網路永遠不會實際有用。然而,在1980年代,幾個重要的想法使人們重新燃起了對人工神經網路的興趣,這些想法包括今年獲獎者的工作。

本圖來自:諾貝爾獎官方網站


聯想記憶

想像你在嘗試記住一個你很少使用的相對少見的詞,例如用來形容經常在電影院和演講廳中出現的傾斜地板的詞。你在記憶中搜尋,這個詞好像是ramp...也許是rad...ial?不,不是。哦,是rake,對了!

這個過程就像是在搜索類似的詞來找到正確的詞,這讓人聯想到物理學家約翰·霍普菲爾德在1982年發現的聯想記憶。霍普菲爾德網路可以儲存模式,並有一種方法可以重建這些模式。當網路接收到不完整或稍微扭曲的模式時,這種方法可以找到最相似的已儲存模式。

霍普菲爾德之前利用他在物理學上的背景探索分子生物學的理論問題。當他受邀參加一次神經科學的會議時,接觸到了有關大腦結構的研究。他對所學到的東西深感著迷,並開始思考簡單神經網路的動態。當神經元一起作用時,會產生新的強大特性,這些特性在僅僅觀察網路的單個組成部分時並不明顯。

1980年,霍普菲爾德離開了他在普林斯頓大學的職位,當時他的研究興趣已經超出了他的物理學同事所研究的領域。他橫跨大陸,接受了加州理工學院(Caltech)的化學和生物學教授職位。在南加州帕薩迪納,他可以自由使用電腦資源來進行實驗,並發展他對神經網路的想法。

然而,他並未拋棄他在物理學中的基礎。他從物理學中獲得了靈感,尤其是瞭解了磁性材料的原子自旋特性,每個原子都像是一個小磁鐵。相鄰原子的自旋相互影響,這可能允許自旋相同的區域形成。他能夠利用這種物理學,建構出一個具有節點和連接的模型網路。


在一個景觀中儲存圖像的神經網路

霍普菲爾德建立的網路擁有節點,所有節點通過不同強度的連接相互連結。每個節點可以儲存單一數值——在霍普菲爾德的最初工作中,這個數值可以是0或1,就像黑白圖片的像素一樣。

霍普菲爾德使用一個與物理學中的自旋系統能量等效的性質來描述網路的整體狀態;能量是用一個公式計算的,該公式使用所有節點的數值和它們之間連接的強度。霍普菲爾德網路的編程過程是通過將圖像輸入節點,這些節點被賦予黑色(0)或白色(1)的值。然後,網路的連接根據能量公式進行調整,從而使儲存的圖像具有低能量。當另一個模式被輸入網路時,網路會根據一條規則,逐個節點進行檢查,查看如果改變該節點的值,能量是否會降低。如果發現能量會降低,則節點的值會改變。這個過程會持續進行,直到無法找到任何進一步的改善。到這個時候,網路通常會重現最初訓練時的圖像。

如果你只儲存一個模式,這可能看起來並不那麼令人驚訝。你或許會想,為什麼不直接儲存圖像本身,然後將其與另一個待測圖像進行比較?但霍普菲爾德的方法很特別,因為可以同時儲存多個圖像,並且網路通常可以區分它們。

霍普菲爾德將在網路中搜尋已儲存狀態比作將一個球滾動穿過一個滿是峰谷的景觀,摩擦力使其運動變慢。如果將球放在某個特定位置,它將滾入最近的谷底並停在那裡。如果網路接收到一個接近已儲存模式的模式,它會以同樣的方式前進,直到最終到達能量景觀中的谷底,從而找到記憶中最接近的模式。

霍普菲爾德網路可以用來重建含有噪音或部分遺失的數據。

本圖來自:諾貝爾獎官方網站


霍普菲爾德及其他人繼續發展霍普菲爾德網路的細節,包括能夠儲存任意值的節點,而不僅僅是0或1。如果你將節點想像成圖像中的像素,它們可以擁有不同的顏色,而不僅僅是黑白兩色。改進的方法使得儲存更多圖像並在它們之間進行區分變得可能,即使它們相當相似。只要信息是由許多數據點構成,也可以用這種方法來識別或重建任何信息。


使用十九世紀的物理學進行分類

記住一幅圖像是一回事,但解讀其所描述的內容則需要更多。

即使是年幼的孩子也能指著不同的動物,自信地說那是狗、貓或松鼠。他們偶爾會搞錯,但很快他們幾乎總是正確。孩子即使沒有看到任何物種或哺乳動物等概念的圖表或解釋,也能學會這些。經歷了幾個範例後,不同的類別就在孩子的腦海中形成了。人們通過感知周圍環境學會識別貓,或理解一個詞,或進入一個房間後注意到某些東西發生了變化。

當霍普菲爾德發表他的聯想記憶論文時,傑弗瑞·辛頓正在美國匹茲堡的卡內基梅隆大學工作。他此前曾在英國和蘇格蘭學習實驗心理學和人工智慧,並在思考機器是否能像人類一樣處理模式,為分類和解釋信息找到自己的類別。他與同事特倫斯·塞伊諾夫斯基一起,從霍普菲爾德網路出發,運用統計物理學的想法,構建了一些新的東西。

統計物理學描述的是由許多相似元素組成的系統,例如氣體中的分子。跟蹤氣體中每一個單獨分子的運動是困難或不可能的,但可以從整體上考慮它們,從而確定氣體的整體性質,如壓力或溫度。分子在氣體中的運動有許多潛在的方式,每一種方式都能導致相同的整體性質。

統計物理學可以分析組成部分共同存在的狀態,並計算它們出現的機率。有些狀態比其他狀態更可能發生,這取決於可用能量的多少,這一點由十九世紀物理學家路德維希·玻爾茲曼的方程描述。辛頓的網路利用了該方程,並於1985年以「玻爾茲曼機」這個引人注目的名字發表了這一方法。


識別相同類型的新範例

玻爾茲曼機通常使用兩種類型的節點。信息被輸入到一組節點,稱為可見節點。另一組節點則構成隱藏層。隱藏節點的值和連接也會對整個網路的能量做出貢獻。

這台機器的運行是通過一個規則來逐一更新節點的值。最終,機器將進入一種狀態,其中節點的模式可以變化,但整個網路的性質保持不變。每個可能的模式將擁有一個由網路能量根據玻爾茲曼方程確定的具體機率。當機器停止時,它已經創建了一個新模式,這使玻爾茲曼機成為一個早期的生成模型範例。

本圖來自:諾貝爾獎官方網站

玻爾茲曼機可以學習——不是從指令中學習,而是通過提供範例來學習。它的訓練是通過更新網路中連接的值,使那些在訓練時被輸入可見節點的範例模式,能在機器運行時擁有最高的發生機率。如果在訓練期間重複多次相同的模式,該模式的機率將變得更高。訓練還會影響生成與訓練範例相似的新模式的機率。

經過訓練的玻爾茲曼機可以識別以前未見過的數據中的熟悉特徵。想像你見到了朋友的兄弟姐妹,你立刻就能看出他們應該是有關係的。同樣地,玻爾茲曼機可以識別完全新的範例,只要它屬於訓練資料中的某個類別,並且能區分出與其不同的資料。

玻爾茲曼機的原始形式相當低效,找到解決方案需要很長時間。當它通過不同的方式發展時,情況變得更加有趣,辛頓持續探討這些方式。後來的版本被簡化了,一些單元之間的連接被移除了。結果顯示,這樣做可以提高機器的效率。

在1990年代,許多研究人員對人工神經網路失去了興趣,但辛頓是少數持續在該領域工作的人之一。他還幫助引發了新的激動人心的結果爆炸;2006年,他與同事西蒙·奧辛德羅、余煒·德和魯斯蘭·薩拉庫丁諾夫一起,開發了一種用一層層的玻爾茲曼機進行網路預訓練的方法。這種預訓練為網路中的連接提供了一個更好的起點,優化了其識別圖片元素的訓練。

玻爾茲曼機通常用作更大網路的一部分。例如,它可以根據觀眾的偏好推薦電影或電視節目。


機器學習——今天與未來

自1980年代以來,約翰·霍普菲爾德和傑弗里·辛頓的工作為大約2010年開始的機器學習革命奠定了基礎。

我們如今所見的發展是通過獲取海量數據來訓練網路,以及計算能力的極大提升而得以實現的。如今的人工神經網路通常是巨大的,由許多層構成。這些稱為深層神經網路,訓練它們的方式被稱為深度學習。

快速瀏覽霍普菲爾德1982年發表的聯想記憶論文,可以對這一發展有所了解。在該論文中,他使用了一個擁有30個節點的網路。如果所有節點彼此連接,將有435個連接。節點有其值,連接有不同的強度,總共有不到500個參數需要跟蹤。他還嘗試了一個擁有100個節點的網路,但對於當時他使用的電腦來說,這太過複雜。我們可以將此與當今的大型語言模型相比,這些模型是由含有超過一兆個參數(千萬億)構建的網路。

許多研究人員現在正致力於開發機器學習的應用領域。哪一個將成為最有前景的還有待觀察,與此同時,關於這項技術的開發和使用的倫理問題也在廣泛討論。

由於物理學提供了機器學習發展的工具,因此有趣的是,作為一個研究領域的物理學也從人工神經網路中受益。機器學習已經長期應用於我們熟悉的領域,這些領域曾經獲得過諾貝爾物理學獎。例如,機器學習被用來篩選和處理大量數據,這對於發現希格斯粒子至關重要。其他應用還包括減少測量黑洞碰撞產生的引力波中的噪音,或搜尋系外行星。

近年來,這項技術也開始被用於計算和預測分子和材料的性質——例如計算蛋白質分子的結構,這決定了它們的功能,或找出哪種新材料版本可能具有最佳的性能,能夠用於更高效的太陽能電池。



約翰·J·霍普菲爾德,1933年出生於美國伊利諾州芝加哥。1958年獲得美國紐約州伊薩卡康奈爾大學博士學位。現任美國紐澤西州普林斯頓大學教授。

傑弗瑞·E·辛頓,1947年出生於英國倫敦。1978年獲得英國愛丁堡大學博士學位。現任加拿大多倫多大學教授。



參考資料:


民國113年10月15日
OTORI Z.+

沒有留言:

張貼留言