0
最近人工智能領域戰火紛飛,各種觀點打架。脾氣火爆的人工智能之父Jürgen Schmidhuber也不斷吐槽自己“被遺忘”了,不滿之余還不忘四處宣講自己全新的人工智能發展理念,誓要奪回大眾視線。
不久前,他就接受了Machine Learning Street(MLST)的一次獨家專訪,回憶了自己在深度學習和人工智能方面的開創性工作,分享他對智能機器未來的展望,還重點回顧了世界模型帶來的人工智能創新和LSTM和Transformer的開發及演變。
在Jürgen Schmidhuber看來,深度學習雖然不能解決像基礎理論改進一類的問題,但在大部分問題上都表現出了很高的實用性,尤其是循環神經網絡。
循環神經網絡的強大之處在于,它本質上是一臺通用計算機,所以理論上來任何能在計算機上執行的計算任務都能在循環神經網絡上進行。只需要增加存儲,就能讓循環神經網絡處理更復雜的問題。
不過Jürgen Schmidhuber也說了,一開始自己的想法還是很天真的,想讓神經網絡去模擬和預測未來的每一個小步驟,再從中挑選出能夠帶來最大回報的行動路徑。
Jürgen Schmidhuber也找到了這個繁瑣低效的流程的改進方式。他想把輸入的那一長串的行動序列都拆分成不同的塊,之后再以新的方式組合在一起。這樣一來,就可以在不同的情況下調用相同的塊,而不是再重新一步一步地預測抽取。
Jürgen Schmidhuber把這些理念和世界模型結合在了一起,讓世界模型去預測環境未來發展的情況通過建立模型來推斷下一個時刻的狀態,并不斷優化模型的表現。世界模型的結構類似于人腦中的“心智模式”,是對外部世界的一種內在模擬。
Jürgen Schmidhuber相信未來能夠構建出一個足夠通用的系統,讓系統能夠反復利用之前學習的內容,從神經網絡中學習更多的子程序,最終實現系統的自主學習。
Jürgen Schmidhuber還從世界模型的發展中領悟到一個特殊的觀點,整個科學史其實是一部數據壓縮發展史。科學家們不斷地從數據簡化中發現新的科學技術,再利用新的科學技術壓縮研究中面對的龐大數據。
在人工智能領域,這一現象更加明顯。通過收集和分析大量數據,科學家們發現背后的規律,找到壓縮數據的方法,從而提升人工智能的能力。未來,人工智能將學會自主進行數據壓縮,理解數據背后的深層規則。
回顧人工智能的發展歷程,上世紀90年代年是個充滿奇跡的時期。可以說沒有那時候Jürgen Schmidhuber的種種發現,就沒有現在火爆的生成式人工智能。
例如ChatGPT里的“G”(生成對抗網絡)、“P”(自監督預訓練)、“T”(Transformer),無一不是基于Jürgen Schmidhuber及其團隊過去發表的成果。
1990年,Jürgen Schmidhuber提出了Adversarial Curiosity原則,包括一個生成器和一個預測器,讓兩個神經網絡進行博弈和對抗。生成對抗網絡(GAN)就是基于這個原則誕生的。
一年后他提出了線性Transformer,奠定了Transformer的基本原理,現在火爆的大語言模型都建立在Transformer的基礎上。
那時Jürgen Schmidhuber也在深度學習策略方面實現了一個天才的想法,使用預測編碼來大大壓縮長序列,騰出空間讓深度學習變成可能。這也是大名鼎鼎的自監督預訓練的來源。
同樣在1991年,他的學生提出了早期的LSTM概念,兩人在1997年共同發表了LSTM的論文,這篇論文還成為了20世紀引用量最高的論文。
早期的大語言模型都是基于LSTM開發的,沒有Transformer的某些限制,但并行化上不如Transformer高效。
不過Jürgen Schmidhuber并未止步于此,他和他的團隊最近正在研發X LSTM,旨在打破這一局限,為人工智能領域帶來新的突破。通過這些創新,Schmidhuber不斷推動著人工智能的邊界,為我們展示了一個充滿可能性的未來。
以下是Jürgen Schmidhuber訪談的具體內容,AI科技評論摘取精華內容,作了不改原意的整理:
MLST:再次歡迎來到MLST,非常榮幸能有您參加節目。
Jürgen Schmidhuber:我的榮幸,感謝邀請我。
MLST:你認為未來人工智能技術的突破會減少計算量嗎?我上周采訪了ARC challenge的獲勝者Jack Cole,他認為我們需要離散程序合成,需要可能是神經引導的符號人工智能或神經符號人工智能。他還提到神經網絡是“寬但淺”,而符號方法是“狹窄但深入”。你對此有什么看法?
Jürgen Schmidhuber:我完全同意。深度學習無法解決計算機科學中的很多問題,例如基礎理論改進。深度搜索樹更能確保新定理的正確性。雖然深度學習可以用來尋找捷徑或識別模式。有很多問題可以通過非深度學習的方法更快更高效地解決。例如符號操作,當前的語言模型在遇到符號操作問題時,也是調用傳統的符號計算方法來解決。
MLST:確實,我們常說神經網絡是有限狀態自動機,而不是圖靈機。多年來,LeCun和Hinton等人試圖反駁這個觀點,他們認為神經網絡原則上可以進行符號抽象操作。但你認為它們有很明顯的區別,對嗎?
Jürgen Schmidhuber:是的,循環網絡就是一臺通用計算機,所以原則上你可以在循環網絡中計算任何在筆記本電腦上可以計算的東西。
MLST:一篇1995年的論文證明了這一點,它使用了任意精度,似乎有些作弊,通過增加權重的精度來假裝是圖靈機。
Jürgen Schmidhuber:你指的是Siegelmann的論文?那篇論文的論點不太有說服力,因為它需要對權重進行無限精確的計算。循環網絡作為通用計算機的證明并非那么簡單,但它確實表明在這些網絡中可以實現NAND門。因此,任何筆記本電腦可以做的事情,循環網絡也可以做到。

MLST:我同意,但很多人會提出圖靈機可以通過擴展內存處理潛在無限數量的情況,這是否意味著圖靈機提供了更多的可能性?
Jürgen Schmidhuber:這只是一個理論。圖靈機是圖靈在1931年提出的,用來討論計算和人工智能的基本限制。圖靈機的理論構造與現實可以構建的東西無關。在現實世界中,所有計算機都是有限狀態的自動機。
MLST:理論上,Python解釋器可以執行無限多的程序,而神經網絡只能識別它們訓練過的有限事物,這是兩者的根本區別。
Jürgen Schmidhuber:理論上是這樣,但在實際操作中,因為存儲空間有限,所有計算設備都受限于有限狀態自動機。我們能實現的,是由循環神經網絡代表的有限狀態自動機。有些任務,比如乘法運算或定理證明,某些自動機更高效。
這些自動機看似簡單,但在神經網絡中實現并不直觀。理論上,它們是等價的,但在實用計算中,沒有超越有限狀態自動機的優越性。大多數實際問題都很簡單,只需要有限存儲和計算能力即可。
因此,我們專注于用循環神經網絡或Transformer解決實際問題。
MLST:希拉里·普特南提到過多重實現性,任何計算都可以用不同的物理系統來表示。在我看來,多重實現性的奇妙之處在于其表示和概括能力。這種方式是人工智能的一種理想形式,可以通過緊湊的符號表示處理可能在無限多種情境下工作的事物,而不是單純記住所有不同的操作方式。
Jürgen Schmidhuber:是的,但是這個概念很難劃定邊界。
我們在討論奇偶校驗問題之前,就明確了一點,Transformer無法學習奇偶校驗的邏輯。奇偶校驗是一個簡單的問題,就是判斷一串二進制數字中是奇數還是偶數。
要解決這個問題,你需要逐個讀取位,你就有了一個很小的循環網絡,只有一個從隱藏單元到自身的偵察連接。每當一個新單元進入,內部狀態就會在1.0和0.0之間翻轉。這個類似小邏輯電路的東西能解決Transformer解決不了的奇偶校驗問題,循環神經網絡當然也能做到。
這就是我從80年代開始對循環神經網絡著迷的原因,因為它們在通用計算的意義上是通用的,只需在需要時增加存儲,就能處理更復雜的問題。
MLST:我認為,RNN作為計算模型的基礎和它作為可訓練神經網絡的實際用途是有區別的。因為1991年的那篇論文表明,RNN不能通過梯度下降進行訓練,而只是以一種特殊的方式輸入信息,使它表現得像圖靈機。我們希望它們不僅可訓練,而且有實際用處。
Jürgen Schmidhuber:確實,這就是一個問題。一個學習奇偶校驗的小網絡只有5個連接,梯度下降并不適用。
最好的辦法是隨機初始化權重,如果解決了訓練樣本的奇偶校驗,它幾乎肯定能泛化到所有長度。這個小網絡比前饋網絡更強大,如果訓練一個前饋網絡解決9位奇偶校驗,它無法泛化到10位或11位,而這個小網絡可以泛化到任何類型的奇偶校驗輸入。
我們有一個非傳統的學習算法,就是隨機搜索權重,只需嘗試1000次,看是否解決了訓練集中的問題。1997年的LSTM論文中也提到,有些問題不適合梯度下降學習,離散程序搜索可能更合適。權重矩陣是網絡的程序,梯度下降有時會陷入困境,而其他搜索方法可以找到你真正需要的權重設置。
從1987年以來的研究來看,我們的研究涵蓋了很多象征性的算法,這些算法專注于漸近最優問題解決者,如2003年的OOPS,這些算法與神經網絡無關。但神經網絡在很多實際問題上表現良好,即使沒有理論證明。這兩種方法的界限很難劃定,因為它們之間的區別已經越來越模糊了。
在90年代初,我們有子目標生成器,可以做一些像是符號化的事,但其實是通過系統中的梯度下降實現的。
這個系統學會了把實現目標所必須執行的動作序列分解成有意義的塊。這樣你就可以從開始到目標,然后從子目標到目標,所有看起來有點像符號化的事情。
但現在我們發現神經網絡也能實現,并且甚至可以通過梯度下降來對齊。當然我們也碰到了其他問題導致梯度下降失敗。所以你不會考慮把梯度下降當作能解決所有問題的萬能方法。這并是神經網絡的問題,因為神經網絡可以用許多非梯度下降的方法來訓練。
MLST:這是一個有趣的觀點。你職業生涯中花了很多時間研究元學習,這涉及更高階的學習方法。正如你提到的,在元學習中可以混合多種模式,比如隨機梯度上升、符號模式以及復雜的元推理模式。對于目前進行arc挑戰的人,他們在進行離散程序搜索,有的嘗試在頂層使用元模式的神經搜索或完全不同的方法。你認為應該怎么做?
Jürgen Schmidhuber:你需要看具體問題的性質。雖然我沒有研究所有問題,但我確信,很多問題可以用類似最優順序問題的方法來解決。這是一種漸進的最優方式,找到解決計算問題的程序,使驗證時間與解決方案大小呈線性關系。
這是一個重要的概念,與P和NP問題有關。有一種最優的方法進行程序搜索,類似1973年的通用搜索算法。最優順序問題求解器基于這種方法,以漸進最優的方式解決新問題,利用先前問題的解決方案。這種方法并不局限于神經網絡或深度學習領域,但你可以將神經網絡用作基本指令,并測量其運行時間。最優的運行方式是將時間分配給測試程序,優先考慮簡單和快速的方法。
這些程序可以包含各種原始指令,比如Transformer的反向傳播等,但需要測量其運行時間。如果消耗時間過多,就要中斷程序并調整分配時間,尋找易于驗證的解決方案。雖然這些看起來很符號化,但我在90年代已經將這些原則應用于神經網絡。
這其實是另一種搜索神經網絡權重的方法,不是通過梯度下降,而是更智能的方法。如果運氣好的話,還能帶來更好的泛化效果。因為這些方法能夠找到解決問題的最短、最快的方式,最小化算法復雜性或Kolmogorov復雜性。
這些方法在神經網絡的運行時間限制下,有助于更好的泛化。因此,傳統的符號推理、程序搜索和神經網絡之間存在一定的重疊。
MLST:那么,技術行業是否試圖挖走你的團隊?
Jürgen Schmidhuber:他們確實這樣做了。他們當然試圖挖走我的合作者。
例如,在2010年和2011年,當我們在神經網絡上取得快速轉化的成功時,蘋果確實成功地挖走了我一位獲獎團隊成員。有些人認為蘋果在深度GPU CNN領域來得太晚,但并非如此,他們在這一領域商業化后就積極參與了。
而谷歌DeepMind是由我實驗室的一名學生和其他人共同創辦的,他們的第一位員工是我的另一位博士生。后來,他們還聘用了我的許多博士后和博士生。
MLST:順便說一句,前幾天我在推特上看到一個有趣的段子,一位女士說:“我不想讓人工智能為我完成我的藝術創作,我想讓它洗碗。”
Jürgen Schmidhuber:這就是我媽媽在70年代說過的話。她說,“給我造一個能洗碗的機器人。”
MLST:是的,沒錯。但我想要探討的是,為什么人們會認為ChatGPT正在走向通用人工智能(AGI)?
而我看它時,覺得它只是一個數據庫。它沒有知識獲取,因此沒有推理能力。它沒有創造力,也沒有自主性。它沒有我們所擁有的許多認知特征。
然而,人們卻對它產生了興趣,要么是故意將其擬人化,要么是自我欺騙,或者他們真的看到了什么。
你認為這可以用什么來解釋呢?
Jürgen Schmidhuber:在我看來,情況是那些對AGI保持懷疑態度的人質疑了幾十年,被ChatGPT的誕生說服,轉而相信和之前相反的觀點。因為突然之間,你有了一臺在圖靈測試中表現得非常好的機器。
他們認為,AGI來了。但我認為所有因為ChatGPT和其他大型語言模型而開始擔心AGI的人,主要是因為他們不太了解人工智能,不了解背后的神經網絡的局限性。今天我們已經提到過一些這些神經網絡根本做不到的事情。
實際上有點奇怪的是,我多年來一直在倡導,或者說在炒作AGI。我在70年代告訴我媽媽,在我有生之年AGI一定會實現的。在80年代,我所有的同事都認為我瘋了。
但突然,很多不相信我的預測的人改變了自己的想法,只是因為ChatGPT的出現,他們就開始認為離AGI已經很近了。
我認為唯一的原因是他們并沒有真正理解這些大型語言模型的本質和局限性。
MLST:我明白,但我無法理解這一點。因為其中許多人,特別是在硅谷的那些人,他們在技術行業工作,他們正在研究這項技術,他們卻不了解機器學習是如何工作的。我只能理解為有時你會碰到一些非常聰明的人,在其他方面卻容易被迷惑,或者說,一定有什么東西可以解釋他們為什么看不到這一點。
我的意思是,這些都是機器學習模型,它們只能將參數化的曲線擬合到數據分布中,在密度大的地方效果很好,而在密度小的地方效果就不好了。為什么他們會認為這是神奇的呢?
Jürgen Schmidhuber:也許是因為他們中的許多人都是風險投資家。他們被一些正在成立初創公司的科學家所說服,這些科學家聲稱他們的新初創公司非常接近成功,需要大量投資。
因此,我認為產生這種誤解的一個原因是,一些機器學習研究人員過度夸大了當前大型語言模型的能力。而風險投資家并不了解實際上發生的事情,他們只是試圖找出將錢投在哪里,并愿意跳上任何額外的炒作列車。
AGI是可能的,它將會到來,而且他們不是那么遙遠的未來,但它將只把大語言模型作為一個子模塊,因為通用人工智能的核心目標是完全不同的東西,它更接近強化學習。
現在你可以作為一個強化學習者從監督學習中獲得很多好處。例如,你可以構建一個世界的預測模型。你可以利用這個模型,這個模型可能是由與語言模型相同的基礎模型構建的,你可以在這個世界模型中使用它來規劃未來的行動序列。
但現在情況確實不同了。現在你需要有一些具體化的人工智能,比如機器人,在現實世界中運行。在現實世界中,你可以做到在電子游戲中做到的事情。在電子游戲中,你可以做一萬億次模擬,一萬億次試驗來優化你的表現。每次你被擊中后,你又會復活。
現在,在現實世界中,你有一臺機器人,你做了三次簡單試驗后,一個手指的肌腱就斷了。你必須應對現實世界中類似這樣的令人難以置信的挫折,也必須做好現實世界的執行規劃來減少問題的出現。
你需要通過與世界的互動,對未來進行心理規劃,從而優化你的表現。但當你通過行動收集新的訓練示例時,也要非常高效。因為你希望最大限度地減少獲取新數據的工作量,以改善你的世界模型(你正在使用這些數據進行規劃)。
簡而言之,我現在提到的這些非常重要,而且有幾個提到的組件還不能達到比較好的工作效果。不過現有的神經網絡可以以某種方式作為稍大系統的組件,來完成所有的任務。
這類系統的首次出現可以追溯到1990年,當時我可能是第一個在循環神經網絡研究中使用“世界模型”這個詞的人,試圖為最大化獎勵的控制器規劃動作序列。但是這些更復雜的問題解決者和決策者與僅僅使用大型語言模型是有很大不同的。

Jürgen“世界模型”的結構圖。來源:Jürgen與David Ha2018年發表的論文《World Models》
MLST:是的,我讀過你和David Ha的論文,那是好幾年前的事了。他是第一個使用基于想象力的強化學習模型來玩電腦游戲的人。
不過這是題外話。我想說的是,現在在硅谷,你只需要1000行代碼就能訓練神經網絡,而且很容易就能賺到大把鈔票,擁有很高的地位。他們為什么還要做其他事情呢?這是一個例子。
你已經做了三分之一個世紀的工作,你也已經考慮了下一步,我不知道他們是否只是在淡化這一點。他們為什么不去做那些困難的部分呢?也許是因為現在生活太輕松了,只要說著這就是AGI就夠了。
Jürgen Schmidhuber:是的,我猜許多現在過度炒作AGI的人正在為他們的下一個公司尋找融資,也有足夠多的容易上當受騙的風險投資者想要跳上這臺“大馬車”。
另一方面,我們目前擁有的技術遠遠超出了純粹的語言模型,原則上來說足以完成下一步工作。
就像我說的那樣,用來創建語言模型的技術也可以用來創建世界模型。重點在于,你如何學會以層次化、高效的方式使用這個世界模型來規劃導致成功的行動序列。你有一個想要解決的問題,但你不知道如何解決,也沒有人類老師的幫助。現在你想通過自己的實驗和這些心理規劃程序來弄清楚如何解決這個問題。
1990年,我們選擇了一種錯誤的、天真的方式想要解決這件事。我們建立了循環網絡控制器和循環網絡世界模型,用于規劃。我們做的是天真的事情,也就是一毫秒一毫秒地規劃。這意味著你要模擬你可能的未來的每一個小步驟,并且試圖在你的心理模擬中選擇一個你會獲得大量預測獎勵的步驟。這太愚蠢了,不是人類做事的方式。
當人類遇到一個問題,比如“我怎樣才能從這里到達北京?”時,他們會將問題分解成子目標。例如,他們會說:“好吧,首先……”但是,他們不會像這樣一步一步地計劃。他們不會說:“好的,首先我激活我的小指,然后……”他們會抓起手機,然后打車,然后在機場辦理登機手續,接下來九個小時都不會發生什么,直到在北京下車。
所以,你并不是一毫秒一毫秒地模擬所有這些可能的幾率。
目前大多數強化學習仍在一步一步地進行模擬,例如,在國際象棋或圍棋中,你確實在對這些可能的未來進行蒙特卡洛采樣,然后選出一個看起來有希望的未來,你的世界模型會隨著時間的推移不斷改進,即使你做出了錯誤的決定,至少世界模型會變得更好。這樣,下次你就能做出更明智的決定。
但回到1990年,我們只能說這還不夠好。我們必須學習子調用。我們必須將這些長長的行動序列分解成塊。我們必須將整個輸入流分解成塊,將這些塊以某種方式分開,這些塊的抽象表示應該是不同的,但它們對于這些特定序列是相似的。
然后你可以使用這些自適應子代碼生成器,我們也在1990年有了,以一種新的方式將它們組合在一起,有效地和快速地解決你的問題。因為你正在引用你已經學會的子程序,比如從這里到出租車站。
所以我們有那項技術,但與我們后來在2015年所做的相比,它不夠聰明。
后來我們有了更好的方法來使用這些預測性野生模型,以抽象的方式進行規劃。因此,在2015年,我發表了論文《學會思考》,我認為這篇文章在今天仍然很重要,我想很多不知道這篇文章的人或許應該讀一讀。

那么2015年的論文是關于什么的?
它關于一個強化學習機器,這個機器有一個世界預測模型。
這個模型試圖預測一切,但我們并不是真的對一切都感興趣。我們只是對它為了預測一切而創造的內部表示感興趣。通常它不能預測一切,因為世界在許多方面都是不可預測的,但某些事情是可以預測的。而這些內部表示中的一些變得真的可以預測,它包括你可以想象到的一切。
舉個例子,如果你必須正確預測這個像素,也許這取決于1000步之前發生的一些事情。因此,預測機的這些內部表征,會隨著時間的推移而考慮到這一點。所以這些內部分辨率它們會傳達與這個世界和這個特定像素相關的信息。但在跳轉時,你想以更聰明的方式進行規劃。
那要怎么做呢?控制器必須完成某項任務,最大化它的回報。而不是一毫秒一毫秒地使用世界模型相反,它應該忽略所有根本無法預測的東西,只關注這些抽象的、可預測的內部概念,至于其他的,控制器必須了解它們是什么。
那又該如何學習呢?我能做什么?
你可以給它與世界模型的額外連接,讓它學會好奇地發送查詢。查詢只是數字向量,一開始,它不知道如何向這個野生模型發送好的查詢。然后,世界模型會反饋一些信息,因為你喚醒了一些內部表征,這些信息會反饋回來。所以它們必須通過控制器所做的強化學習或類似的事情來學習。
因此,現在控制器本質上是在通過說謊成為一個提示工程師。
那是我2015年的強化學習提示工程師,學習發送數據到墻模型,然后從角色模型中獲取數據,這些數據在某種程度上應該代表與之相關的算法信息。
因此,基本上控制器必須學習在這個龐大的世界模型中穿行,可能已經看過所有YouTube視頻。有人必須學習以抽象的規劃方式處理這些內部知識,并解釋返回的內容。而AC測試是這個控制器是否能夠在沒有模型的情況下,通過將所有連接設置為零,或者通過某種方式學習到在世界模型中處理相關算法信息,這樣更便宜,從而更快地學習所需的內容。
因此,學習是重要的。我相信這就是前進的方向。在機器人技術、強化學習、機器人及所有這些目前尚未有效的領域。
MLST:我可以回顧一下你前面說的一些事情嗎?因為你談到的抽象原則與生成對抗網絡非常相似,在這個游戲中你試圖增加算法信息或信息轉換率,我理解為粗化或抽象。
正如你所說,你從微觀動作空間開始,或者轉向動作抽象空間,在那里你實際上是在學習動作空間中的模式。這是有道理的,因為當你開車時,例如,你會考慮宏觀的東西,忽略路上的樹葉,你在考慮大局,你有這種粗化、這種分辨率的跳躍,取決于你如何看待問題。
根據我的理解,你正在學習思考,你剛才描述的控制器模式有點像是在建模這個過程。
Jürgen Schmidhuber:是的,這里的控制器只是試圖提取另一個網絡的算法信息,這個網絡可能接受過各種訓練。
例如,正如我之前提到的,它可能是所有YouTube視頻的集合。在這些數十億的視頻中,有很多是關于人們扔東西的,比如機器人、籃球運動員、足球運動員等。
這些視頻包含了大量關于重力、世界運作方式以及三維特性的隱含信息。但控制器并不能直接訪問這些視頻隱含的信息。
控制器通過執行器發送信號來進行操作,而這些執行器可能與視頻中人類的操作方式不同,比如機器人只有三個手指而不是五個,但它們仍然在同一個受重力影響的世界中工作。通過觀察這些視頻,我們可以學習如何在不同條件下進行操作,比如如何用三個手指進行查詢和提示。
你需要將這些觀察注入到世界模型中。你想要進行搜索,以解決模型中的關鍵問題,從而提取出控制器改進行為所需的有用信息。你可能只需要一些額外的信息,這些信息必須通過學習來獲得。
有些信息你不能立即用來提高投擲技能,但你可以稍微調整幾個參數位,這樣你就能比沒有這些參考信息時更快學會投擲球。在給定環境中找到正確的規劃算法,解決所有這些問題是非常復雜的,需要通過學習來實現。
你無法預先編程出一個完美的解決方案,因此你必須在特定的環境下學習,并考慮所有的資源限制,比如控制器中的神經元數量和每毫秒的時間步數等。
你必須學習如何成為一個更好的提示工程師,發送正確的提示,并理解反饋的信息。
所以原則上,我認為這就是未來規劃、層次化和類比推理以及所有這些東西的核心。你需要構建一個足夠通用的系統,讓它能夠自主學習所有這些內容。
這種方法不是像我早期在谷歌或博士后研究中那樣的通用規劃,而是更加實際的,能夠在有限資源和各種限制下運行的系統。在這種系統中,控制器需要學會如何更好地引導提示。
現在你給系統一系列問題,它可以重復利用之前學到的內容,并不斷學習更多的子程序,這些子程序可以編碼在重構的神經網絡中。這些網絡是通用計算機,可以編碼所有層次化推理和子程序。原則上,它應該能做得很好,但它并不像許多人癡迷的大型語言模型那樣的有限監督技術一樣運行得很好。
MLST:是的,這是您又一次超越時代的思考。
一個月前,我采訪了一些多倫多的大學生,他們正在將控制理論應用于大型語言模型提示,并用它來探索可達性空間。他們使用一個控制器來優化語言模型的輸出,探索可能的標記空間。關鍵在于我們開始看到一種元架構,語言模型只是整個架構的一部分。
我認為這種跳出思維定勢的思考方式真的非常有趣。
Jürgen Schmidhuber:是的,我們最近的一篇論文受到了2015年學習提示工程師的啟發,就是我們的心智社會論文。我們不僅有控制器和一個模型,而是很多基礎模型。有些模型非常擅長計算機視覺,能從圖像中生成標題,另一些則擅長用自然語言回答問題。
現在你有一個由這些家伙組成的社會,你給他們一個他們無法單獨解決的問題,要求他們共同解決,那么他們會怎么做呢?

模型正在進行“頭腦風暴”。來源:Jürgen Schmidhuber等人2023年發表的論文《Mindstorms in Natural Language-Based Societies of Mind》
他們開始為彼此成為提示工程師。他們會進行一些我們稱之為“思維風暴”的活動。因為這個基于自然語言的思維社會的成員們在互相面試。你會怎么做,你建議我們應該怎么做?
我們會有不同類型的社會。例如,我們有君主制,那里有一個國王,一個神經網絡國王,根據下屬的建議決定接下來應該做什么。我們還會有民主制,在這些不同的家伙之間有投票機制。他們把所有的想法都放在黑板上,吸收其他人的所有想法,最終得出一個通常相當令人信服的解決方案。
所以在各種應用中,比如生成一個更好的圖像設計,展示那個或者在3D環境中操縱世界以實現某個目標等等,這種方式以一種開放的方式運作,并且打開了一系列新問題,比如,君主制是否比民主制更好?如果是的話,在什么條件下?反之亦然。
MLST:我感興趣的是,我認為獲取知識是一件非常重要的事情。比如,我在建立一家初創公司,我在建立一個YouTube頻道,我在學習如何剪輯視頻和做音頻工程等等。這其中有太多的嘗試和錯誤,因為推理、創造力和智慧就是要能有靈光一現的洞察力,并以這種令人難以置信的方式將你已有的許多知識組成一個整體。
當你看到它的時候,你就會有"啊哈"的一瞬間,然后你就再也看不到它了。現在,它改變了你看待整個世界的方式。但有時也會有"啊哈時刻"。
但有時,通過我們的集體智慧,人們會嘗試很多不同的事情,我們會分享信息,進行評估,然后新的事情發生了,這種創造性的洞察力,然后它改變了整個世界,我們會利用這些知識并分享它。
因此,這是一個有趣的過程。
Jürgen Schmidhuber:是的,確實如此。根據別人的發現,你也可以有"啊哈時刻"。當愛因斯坦通過廣義相對論發現了物理學的巨大簡化時,很多人都被深深吸引,并產生了這些內在的"喜悅時刻"。一旦他們理解了其中的奧秘,通過這一個人的發現,世界突然變得簡單了。
當時發生了什么?我們看到的是一個以新穎方式壓縮數據的時刻。事實上,所有的科學都是一部數據壓縮的發展史。科學并不像我在1990年提出的那樣,只有這些生成對抗網絡,其中的控制器只是試圖最大化與預測機試圖最小化的相同誤差函數。因此,主題預測器的誤差就是控制器的回報。這是一個相當有限的人工科學家。
你真正想做的是讓一個控制器創建動作序列,即通過實驗來獲得數據,而不僅僅是不可預測的、令人驚訝的、對模型來說誤差很大的數據。你想創建的數據具有模型所不具備的規律性。
不規則性意味著你可以壓縮數據。所以,讓我們以我最喜歡的例子--蘋果掉落的視頻為例。有人通過他的行動和實驗生成了這些掉落的蘋果視頻。結果發現,蘋果的掉落方式是相同的。你可以通過觀察視頻的前三幀來預測第四幀中的許多像素。盡管不是所有像素都可以預測,但許多像素的預測很準確,因此不需要額外存儲。這樣,你可以大大壓縮掉落蘋果的視頻,這說明編碼預測的神經網絡可以非常簡單,可能只需要幾位信息來描述,因為你可以利用對重力的了解來大幅壓縮視頻。最初,你可能需要很多兆字節來存儲數據,但由于你對重力有了深入了解,你只需要編碼模型預測的偏差。因此,如果模型很簡單,你可以節省大量的數據存儲空間。這就是人們發現重力的方式。
MLST:你用蘋果的例子真的很有趣,因為它讓我再次思考記憶和泛化的關系。在深度網絡中,我們使用歸納偏置,它們的形式是對稱性和尺度分離。例如,我們可以進行平移,即局部權重共享,從而實現平移等變性。這將允許模型使用更少的表示或容量來模擬不同位置的球。但是,這是否是一個連續的過程呢?因為我們可以一直走到最后,最終我們會得到一個幾乎沒有自由度的模型,仍然可以表示蘋果的下落。但是,這在表示或保真度方面存在一個連續譜。
Jürgen Schmidhuber:是的。而且,你還必須考慮到將內部演示轉化為有意義的行動所需的時間。當嬰兒看著下面這些蘋果時,他們在做什么呢?他們也在學習預測同步像素,這也是他們學習的方式,壓縮。
現在他們對數學的平方定律和描述許多不同物體的引力的簡單的5符號定律一無所知。但原則上,他們知道這些蘋果掉落的速度會急劇加快。他們學習了這部分物理知識。
即使不能命名或將其轉化為符號,這不是目標,但它可以極大地壓縮。在400年前,開普勒還是一個嬰兒。他長大了后看到了數據,行星環繞著太陽。這是嘈雜的數據。但后來他突然意識到數據存在規律性,因為一旦你意識到所有這些數據點都在橢圓上,你就可以極大地壓縮它們。有一個簡單的數學定律,他能夠根據這個簡單的洞察力做出各種預測。這些都是正確的。預測就是全部。
幾十年后,另一個家伙,牛頓,他看到下落的蘋果和這些橢圓上的行星,它們是由同一個簡單的東西驅動的。這說明許多額外的簡化和預測確實有效。
又過了300年左右,直到另一個人開始擔心與預測的偏差,整個事情變得越來越糟。傳統的世界模型變得越來越丑,因為你需要越來越多的信息來編碼這些與預測的偏差。因為如果你遠遠地觀察星星在做的事情,按照標準理論,它們在做一些不該做的事情。
然后他提出了這個超級簡化的理論,很多人認為它不簡單,但它非常簡單。你可以用一句話概括廣義相對論的本質。它的基本意思是,不管你加速或減速有多難,或者你目前生活的環境中的重力有多大,光速總是看起來一樣的。
這就是廣義相對論背后的整個程序。如果你理解了這一點,你必須,你知道,學習十幾微積分來形式化它并從中推導出預測。但這只是基本洞察的副作用,它再次非常簡單。所以這個非常簡單的洞察再次允許大大壓縮數據。
所有的科學就是這樣,這就是數據壓縮進步的歷史。
正如我們試圖構建人工科學家一樣,我們正在做的就是這個。
每當我們通過我們自己的數據收集程序,通過我們自己的實驗,每當我們生成具有以前未知規律性的數據,我們就會發現這種可壓縮性。因為我們需要很多突觸和神經元來存儲這些東西,但后來又不需要那么多。前后之間的差異,就是我們作為科學家的樂趣。
我們理解這個原理。我們只是構建由相同愿望驅動的人工科學家,旨在沿著這些方向最大化洞察力、數據壓縮和進步。
我們已經有了人工智能科學家。它們就像小型人工科學家,它們為自己設定目標,為了最大化科學獎勵,它們樂于成為科學家。它們試圖發明實驗,以獲得具有某種特性的數據顯示出數據中存在的規律,而這些規律它們之前并不知道,但可以提取出來。
它們意識到,不知道的規律實際上讓它們能夠通過更好地預測數據來壓縮數據,通過理解數據背后的規則來實現這一點,因此我們可以在人工系統中實現這些東西。
因此,我們已經有了人工科學家,雖然它們的工作效果不如你所知道的ChatGPT,并且它的領域更為有限,僅僅是關于世界知識的處理。但這將會到來,它將改變一切。
MLST:盡管現代的大型語言模型如ChatGPT存在限制,但它們基于自注意力的Transformer是革命性的。你在大約三十年前就發表了首個Transformer變體,對此有何感想?它能做什么?
Jürgen Schmidhuber:1991年我發表了線性Transformer。這種線性Transformer實際上是一個神經網絡,內部包含許多非線性操作,并且計算需求很低。線性Transformer可以基于當前聊天內容來預測下一個詞。它學習生成“鍵”和“值”,并優化注意力以減少預測錯誤。它將存儲和控制分離,并通過梯度下降調整權重,提高預測準確性。
MLST:你提到了1991年的那些突破。ChatGPT中有"T"(Transformer),還有"P"(預訓練網絡),以及第一個生成對抗網絡,GAN。你能多說一些嗎?
Jürgen Schmidhuber:1991年的工作為Transformer和預訓練網絡的發展奠定了基礎。同時,我提出了GANs,通過生成網絡和預測機的互動,讓機器人通過人工好奇心探索環境,這是深度學習和對抗學習的重要里程碑。
MLST:我還想談談LSTM,因為它也誕生在1991年。
Jürgen Schmidhuber:對,我的學生會Sep Hochreiter在1991年提出了LSTM的早期概念。他通過引入殘差連接解決了梯度消失問題,這項技術后來發展成為廣泛認可的LSTM,并在1997年成為20世紀被引用最多的人工智能論文之一。
MLST:20世紀被引用最多的人工智能論文,你對此有何感想?
Jürgen Schmidhuber:LSTM的普及程度非常高,比如Facebook曾用它每天進行超過40億次翻譯,這比YouTube上最火視頻《Baby Shark》的點擊量增長還要快,顯示了LSTM在實際應用中的廣泛影響力。
MLST:我聽說他正在研發一種更先進的LSTM版本,X LSTMs,能分享一些細節嗎?
Jürgen Schmidhuber:在討論X LSTMs之前,我想指出,早期的大型語言模型,包括谷歌的一些模型,都是基于LSTM構建的。直到2000年代末,基于注意力機制的Transformer才開始成為主流。LSTM在某些方面比Transformer更高效,因為它支持線性擴展,而不是Transformer的二次方擴展。
此外,值得注意的是,循環神經網絡(如LSTM)可以解決許多Transformer無法處理的問題。例如簡單的奇偶性問題,Transformer在泛化這一任務時表現不佳,而循環神經網絡可以輕松解決這個問題。
另一方面,Transformer比LSTM更容易進行并行化,這一點非常重要,因為它可以充分利用現代的大規模并行計算架構,特別是Nvidia的GPU。
最近,Sep和他的團隊開發了X LSTM,它在多個語言處理基準上超越了Transformer,并且具有線性而非四次方的計算復雜度。
X LSTMs還引入了矩陣記憶功能,這使得它們能夠存儲比傳統LSTM更多的信息。這種增強的記憶能力對于理解和處理復雜的文本語義至關重要。
此外,X LSTMs的某些版本支持高度并行化,這使得它們能夠更有效地利用現代計算資源。
總的來說,X LSTMs旨在結合LSTM的序列處理優勢和Transformer的可擴展性,提供更強大的語言處理能力。
MLST:聽說你的LSTM技術被蘋果、微軟和谷歌等科技巨頭用于開發語言模型,這是真的嗎?
Jürgen Schmidhuber:確實,許多早期的語言模型是基于LSTM的。例如,微軟的Tay聊天機器人,它通過不斷學習來改進,但也曾因用戶重新訓練而出現問題。
LSTM沒有Transformer的某些限制,但并行化不如Transformer高效。
不過,我們開發的新技術,如X LSTM,正在改變這一局面。
MLST:LSTM和共振流之間似乎有驚人的相似之處,尤其是在層間共享信息的概念上。這與你早期的“高速公路網絡”論文非常相似,能分享一下嗎?
Jürgen Schmidhuber:2015年,我們發表了高速公路網絡,它實際上是一個始終開啟的門控網絡。共振流基本上是一個始終開啟的高速公路網絡。高速公路網絡結合了前饋和循環結構,使其能夠構建非常深的網絡。這種設計是共振流的基礎,通過調整門控機制,可以實現不同的網絡行為。
MLST:關于深度學習模型中的深度問題,我最近采訪了一些專家,他們提到深度網絡的某些神秘特性。你怎么看深度的作用及其重要性?
Jürgen Schmidhuber:深度網絡的效率和效果是一個復雜的話題。理論上,單層網絡可以通過增加隱藏單元來實現任何復雜的功能,但這需要大量的參數和數據。深層網絡通過較少的權重和參數,可以在訓練集上實現良好的性能,并可能在測試集上有更好的泛化能力。這符合奧卡姆剃刀原則,即在模型復雜度和性能之間尋求最佳平衡。盡管深層網絡在實際應用中表現出色,但其背后的理論仍在不斷發展中。
MLST:Daniel Roberts有一個探討了神經網絡的寬度和深度,尋找最優配置以優化訓練。你對此了解嗎?
Jürgen Schmidhuber:我不太了解那篇特定的論文,但聽起來他的研究是基于梯度下降的傳統學習算法。我們從90年代初就開始研究如何找到簡單解決方案的網絡,即具有低Kolmogorov復雜度的網絡。我們的目標是找到能夠生成這些網絡的最短程序,這與超泛化有關,例如從極少的訓練樣本中學習并泛化到更廣泛的情況。
MLST:你曾經說生成神經網絡的程序應該盡可能小,以達到最小描述長度。
Jürgen Schmidhuber:是的,我在1994年的研究中首次探討了這一概念,尋找具有低Kolmogorov復雜度的解決方案。1997年,我進一步研究了如何找到這樣的神經網絡,不使用梯度下降,而是使用通用搜索原則。這種方法在程序空間中搜索,尋找能夠計算網絡權重矩陣的最短程序。這使得網絡能夠在測試集上以傳統神經網絡無法實現的方式泛化。盡管這種方法當時難以擴展,但現在我們有了更強的計算能力,可以重新考慮這些方法。
MLST:那么你能告訴我更多關于策略梯度的信息嗎?
Jürgen Schmidhuber:策略梯度在LSTM中的應用非常重要,尤其是在需要記憶和決策的環境中,比如視頻游戲中。例如,DeepMind使用策略梯度訓練的LSTM在星際爭霸游戲中戰勝了專業玩家,這比傳統的棋類游戲更具挑戰性。這種技術使得LSTM能夠處理復雜的情境記憶和決策,這是監督學習中的Transformer難以實現的。
MLST:聽起來,像OpenAI和DeepMind這樣的主要人工智能實驗室都在使用你們開發的技術。
Jürgen Schmidhuber:確實,這些實驗室的技術基礎深受我們研究的影響。雷峰網雷峰網(公眾號:雷峰網)