劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

本文作者：我在思考中

2022-03-09 15:52

導(dǎo)語(yǔ)：該研究或許也可以改變你的思考方式。

不久前，劍橋高級(jí)機(jī)器學(xué)習(xí)講師 Ferenc Huszár 在個(gè)人博客上力薦斯坦福馬騰宇與 Percy Liang 團(tuán)隊(duì)的工作《將上下文學(xué)習(xí)視作隱式貝葉斯推理的闡釋》（被 ICLR 2022 接收），稱(chēng)其改變了他“對(duì)上下文學(xué)習(xí)以及將語(yǔ)言模型訓(xùn)練成小樣本學(xué)習(xí)工具的思考方式”。

對(duì)一項(xiàng)工作的深入思考與精彩點(diǎn)評(píng)，同樣是科學(xué)進(jìn)步的源泉。同行切磋，堪比華山論劍。為此，AI科技評(píng)論將馬騰宇團(tuán)隊(duì)的新作進(jìn)行簡(jiǎn)單介紹，并整理了 Ferenc Huszár 的評(píng)論筆記，希望對(duì)該領(lǐng)域的研究者有所啟發(fā)。

作者 | 叢末

編輯 | 陳彩嫻

從隱式貝葉斯推理看上下文學(xué)習(xí)

根據(jù) Ferenc Huszár 的介紹，他是在 ICLR 審稿期間閱讀到馬騰宇等人的這篇工作，覺(jué)得該論文所取得的成果十分引人入勝，并進(jìn)行了深入思考。

ICLR 2022 在去年11月公布初審結(jié)果，馬騰宇團(tuán)隊(duì)有3篇工作入選，《將上下文學(xué)習(xí)視作隱式貝葉斯推理的闡釋》（An Explanation of In-Context Learning as Implicit Bayesian Inference）便是其中之一。

劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

作者：Sang Michael Xie, Aditi Raghunathan, Percy Liang，馬騰宇

論文地址：https://arxiv.org/pdf/2111.02080.pdf

馬騰宇與Percy Liang分別為斯坦福大學(xué)計(jì)算機(jī)系的助理教授與副教授，是人工智能領(lǐng)域的著名新秀，都曾獲得斯隆研究獎(jiǎng)，其研究工作受到同行關(guān)注。

圖注：馬騰宇

如AI科技評(píng)論此前對(duì)馬騰宇的專(zhuān)訪介紹，馬騰宇主要從事人工智能基礎(chǔ)理論的研究工作，課題覆蓋非凸優(yōu)化、深度學(xué)習(xí)及理論等等。這篇被 ICLR 2022 接收的工作也是從理論出發(fā)，研究上下文學(xué)習(xí)/語(yǔ)境學(xué)習(xí)（In-Context Learning）與隱式貝葉斯推理之間的關(guān)系。

當(dāng)前，GPT-3等大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行上下文學(xué)習(xí)的表現(xiàn)驚人：模型只需基于由輸入—輸出示例組成的提示進(jìn)行訓(xùn)練，學(xué)習(xí)完成下游任務(wù)。在沒(méi)有明確經(jīng)過(guò)這種預(yù)訓(xùn)練的情況下，語(yǔ)言模型會(huì)在正向傳播過(guò)程中學(xué)習(xí)這些示例，而不會(huì)基于“分布外”提示更新參數(shù)。

但研究者尚不清楚是什么機(jī)制讓上下文學(xué)習(xí)得以實(shí)現(xiàn)。

在這篇論文中，馬騰宇等人研究了在預(yù)訓(xùn)練文本具有遠(yuǎn)程連貫性的數(shù)學(xué)設(shè)置下，預(yù)訓(xùn)練分布對(duì)上下文學(xué)習(xí)的實(shí)現(xiàn)所起到的作用。在該研究中，對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練需要從條件文本中推斷出潛在的文檔級(jí)別概念，以生成有連貫性的下一個(gè)標(biāo)記。在測(cè)試時(shí)，該機(jī)制通過(guò)推斷提示示例之間共享的潛在概念，并應(yīng)用該概念對(duì)測(cè)試示例進(jìn)行預(yù)測(cè)，從而實(shí)現(xiàn)上下文學(xué)習(xí)。

他們證明了：當(dāng)預(yù)訓(xùn)練分布是混合隱馬爾可夫模型時(shí)，上下文學(xué)習(xí)是通過(guò)對(duì)潛在概念進(jìn)行貝葉斯推理隱式地產(chǎn)生的。即便提示和預(yù)訓(xùn)練數(shù)據(jù)之間的分布不匹配，這種情況依舊成立。

與自然語(yǔ)言中用于上下文學(xué)習(xí)的混亂的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集不同，他們生成了一系列小規(guī)模合成數(shù)據(jù)集（GINC），在這個(gè)過(guò)程中，Transformer 和 LSTM 語(yǔ)言模型都使用了上下文學(xué)習(xí)。除了聚焦預(yù)訓(xùn)練分布效果的理論之外，他們還實(shí)證發(fā)現(xiàn)，當(dāng)預(yù)訓(xùn)練損失相同時(shí)，縮放模型的大小能夠提高上下文（預(yù)測(cè)）的準(zhǔn)確性。

Ferenc Huszár 的評(píng)價(jià)

Ferenc Huszár 是劍橋大學(xué)計(jì)算機(jī)系的高級(jí)機(jī)器學(xué)習(xí)講師，對(duì)貝葉斯機(jī)器學(xué)習(xí)有深入的研究。2016年與2017年，他在基于深度學(xué)習(xí)的圖像超分辨率與壓縮技術(shù)上取得兩大突破（如下），谷歌學(xué)術(shù)引用了超過(guò)1萬(wàn)4。

Photo-realistic single image super-resolution using a generative adversarial network（谷歌學(xué)術(shù)引用7.5k+）
Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network（3.5k+）

圖注：Ferenc Huszár

Ferenc Huszár 對(duì)馬騰宇等人的工作給予了高度評(píng)價(jià)。AI科技評(píng)論對(duì) Ferenc 的點(diǎn)評(píng)做了不改原意的整理：

我喜歡這篇論文，因?yàn)樗c可交換性（exchangeability）相關(guān)，這是我最喜歡的概念和想法之一。它讓我想起了我在2015年（當(dāng)時(shí)還處于深度學(xué)習(xí)的發(fā)展早期）的想法——利用可交換序列模型實(shí)現(xiàn)大規(guī)模通用學(xué)習(xí)機(jī)。在那篇舊博文中，我對(duì)可交換模型做了如下思考：

如果我們有一個(gè)可交換的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），我們就可以在同一輸入空間的多個(gè)無(wú)監(jiān)督學(xué)習(xí)問(wèn)題上對(duì)它進(jìn)行訓(xùn)練。這個(gè)系統(tǒng)其實(shí)就學(xué)會(huì)了學(xué)習(xí)。如果想在一個(gè)新的數(shù)據(jù)集上使用該系統(tǒng)，只需將它輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中，它就能夠輸出貝葉斯預(yù)測(cè)概率，無(wú)需任何額外的計(jì)算。所以，它就是一個(gè)終極通用推理機(jī)。

實(shí)際上，終極通用推理機(jī)（很慶幸我給它注冊(cè)了商標(biāo)）跟 OpenAI 的 GPT-3 有時(shí)給人呈現(xiàn)的樣子和使用的方式并沒(méi)有太大區(qū)別。實(shí)踐顯示，使用者可以在多種多樣的任務(wù)中將它們重新調(diào)整為小樣本（或在某些情況下為零樣本）學(xué)習(xí)工具。語(yǔ)言模型的這種通過(guò)輸入精心設(shè)計(jì)的提示來(lái)解決不同任務(wù)的能力，有時(shí)候被稱(chēng)為“提示黑客”（prompt-hacking）或“上下文學(xué)習(xí)”。

老實(shí)說(shuō)，在我讀到馬騰宇等人發(fā)表的這篇論文之前，我從來(lái)沒(méi)有把大型可交換序列模型視作通用學(xué)習(xí)工具的動(dòng)機(jī)和使用GPT-3進(jìn)行上下文學(xué)習(xí)的最新趨勢(shì)聯(lián)系起來(lái)。事實(shí)上，我對(duì)后者深表懷疑，認(rèn)為它本質(zhì)上就是必然存在根本缺陷的另一種黑客行為。但是這篇論文將這些點(diǎn)都聯(lián)系起來(lái)了，這也是它為什么如此吸引我的原因，因?yàn)槲矣肋h(yuǎn)無(wú)法想到“提示黑客行為”和上下文學(xué)習(xí)竟然完全一樣。

1）將可交換序列作為隱式學(xué)習(xí)機(jī)

在探討這篇論文前，讓我們先來(lái)溫習(xí)下關(guān)于可交換序列和隱式學(xué)習(xí)的已有概念。

可交換序列模型是一個(gè)序列概率分布劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式，在序列中，對(duì)于任意一個(gè)置換 π，該分布都是對(duì)標(biāo)記的置換不變量。

de Finetti 定理將這些序列模型與貝葉斯推理聯(lián)系在一起，假設(shè)任意分布都可以分解成混合獨(dú)立同分布（I.I.D.）序列模型：

劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

因此，前一步的預(yù)測(cè)分布（用來(lái)預(yù)測(cè)序列的下一個(gè)標(biāo)記）總能分解成貝葉斯積分：

劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

其中，劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式是由先驗(yàn)計(jì)算得到的貝葉斯后驗(yàn)，計(jì)算的貝葉斯公式為：

劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

在這種情況下，如果我們有一個(gè)可交換序列模型，就可以將這些前一步的預(yù)測(cè)分布視作隱式執(zhí)行的貝葉斯推理。關(guān)鍵是，即便我們并不知道θ個(gè) π 是什么，以及可能性劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式是什么，也能實(shí)現(xiàn)這一操作。我們不必明確指出公式的這些組成部分是什么，de Finetti 定理都能夠確保這些組成部分都存在，而只需要讓預(yù)測(cè) 劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式與可交換序列模型保持一致。

這一想法驅(qū)使我通過(guò)構(gòu)建這一模型，來(lái)嘗試設(shè)計(jì)總是能夠產(chǎn)生可變換分布的循環(huán)神經(jīng)網(wǎng)絡(luò)（當(dāng)時(shí)Transformer 還沒(méi)有出現(xiàn)）。最終證明這種想法很難實(shí)現(xiàn)，不過(guò)這一想法最后衍生出了 BRUNO（名字取自Bruno de Finetti）這一工作。

劍橋高級(jí)機(jī)器學(xué)習(xí)講師Ferenc Huszár評(píng)馬騰宇新作：它改變了我對(duì)上下文學(xué)習(xí)的思考方式

論文地址：https://arxiv.org/pdf/1802.07535.pdf

BRUNO 是一個(gè)用于可交換數(shù)據(jù)的靈活的元訓(xùn)練模型，擁有小樣本概念學(xué)習(xí)能力。這個(gè)想法后來(lái)在 Ira Korshunova 的博士論文中得到多種方式的拓展。

2）從可交換序列到混合隱馬爾可夫模型（HMM）

但GPT-3是一個(gè)語(yǔ)言模型，很明顯語(yǔ)言標(biāo)記是不可交換的，所以?xún)烧呗?lián)系是什么？

伴隨著de Finetti 型定理出現(xiàn)了一些引人關(guān)注的泛化成果，可交換性的概念也出現(xiàn)了一些有趣的擴(kuò)展。Diaconis、Freedman（1980）等人定義，偏導(dǎo)可交換性（Partial exchangeability），指的是能確保序列可被分別為混合馬爾可夫鏈的序列分布的不變屬性。因此，可以說(shuō)，使用偏導(dǎo)可交換過(guò)程對(duì)馬爾可夫鏈進(jìn)行貝葉斯推理，與使用可交換過(guò)程對(duì)獨(dú)立同分布（I.I.D.）數(shù)據(jù)生成過(guò)程進(jìn)行推理的方式非常相似。

馬騰宇等人在這篇論文中，假設(shè)使用的序列模型是混合隱馬爾可夫模型。這比 Diaconis 和Freedman 提出的偏導(dǎo)可交換混合馬爾可夫鏈更具泛化性。

我不知道是否混合隱馬爾可夫模型能用可交換性此類(lèi)的不變性來(lái)表征，但這不打緊。實(shí)際上這篇論文根本沒(méi)有提及可交換性，其關(guān)于隱式貝葉斯推理的核心論點(diǎn)是：每當(dāng)使用由簡(jiǎn)單分布組成的序列模型時(shí)，可以將前一步的預(yù)測(cè)闡釋為“對(duì)一些參數(shù)隱式地進(jìn)行貝葉斯推理”。雖然互聯(lián)網(wǎng)上人類(lèi)語(yǔ)言的分布不太可能遵循多觀察隱馬爾可夫模型（Multi Observation Hidden Markov Model，MoHMM）分布，但假設(shè)GPT-3輸出的序列可能是混合隱馬爾可夫模型的某些部分，這種說(shuō)法就是合理的。并且如果真是這樣，預(yù)測(cè)下一個(gè)標(biāo)記就會(huì)對(duì)一些參數(shù)（作者所指的“概念”）隱式地進(jìn)行貝葉斯推理。

3）上下文學(xué)習(xí)和隱式貝葉斯推理

這篇論文的核心思想是，也許上下文推理能夠利用這種與語(yǔ)言統(tǒng)計(jì)模型密切相關(guān)的隱式貝葉斯推理來(lái)解決問(wèn)題。語(yǔ)言模型能夠?qū)W習(xí)隱式地對(duì)任何概念進(jìn)行概率推理，因?yàn)橐朐陬A(yù)測(cè)下一個(gè)標(biāo)記的任務(wù)上表現(xiàn)得好，就必須進(jìn)行這種推理。如果模型具備這種隱式學(xué)習(xí)能力，那它就能夠操縱這種能力去執(zhí)行其他同樣需要這種推理的任務(wù)，包括小樣本分類(lèi)等等。

我認(rèn)為這是一個(gè)非常有意思的泛化想法。但令我稍感遺憾的是，作者聚焦的關(guān)鍵問(wèn)題是特定性和人為性：雖然多觀察隱馬爾可夫模型可以用來(lái)“補(bǔ)全”從某個(gè)特定的隱馬爾可夫模型（混合組成部分的其中一個(gè)）中提取的序列，但如果讓多觀察隱馬爾可夫模型補(bǔ)全它們根本無(wú)法直接生成的序列，例如一個(gè)人為構(gòu)建的嵌入了小樣本分類(lèi)任務(wù)的序列，會(huì)發(fā)生什么？這就變成了一個(gè)分布不匹配的問(wèn)題。

論文關(guān)鍵的發(fā)現(xiàn)在于，即便這種分布不匹配，多觀察隱馬爾可夫模型中的隱式推理機(jī)制也能夠識(shí)別正確的概念，并且能在小樣本任務(wù)中使用這種分布來(lái)做出正確的預(yù)測(cè)。

這一分析為嵌入序列中的上下文學(xué)習(xí)任務(wù)與多觀察隱馬爾可夫模型分布的相關(guān)性，做出了強(qiáng)有力的假設(shè)（具體細(xì)節(jié)請(qǐng)閱讀原論文）。從某種程度上來(lái)說(shuō)，作者研究的上下文任務(wù)，與其說(shuō)是一個(gè)分類(lèi)任務(wù)，不如說(shuō)是一個(gè)小樣本序列補(bǔ)全任務(wù)。

總而言之，這是一篇值得思考的、有意思的論文，它顯著地改變了我對(duì)整個(gè)上下文學(xué)習(xí)以及將語(yǔ)言模型訓(xùn)練成小樣本學(xué)習(xí)工具的研究方向的思考方式。

大家怎么看？

參考鏈接：

1.https://www.inference.vc/implicit-bayesian-inference-in-sequence-models/

2.https://www.inference.vc/exchangeable-processes-via-neural-networks/