CVPR 2018 中國論文分享會之「視覺與語言」

本文作者： camel

2018-06-10 21:06

導(dǎo)語：微軟、自動化所、西北工業(yè)、華南理工

雷鋒網(wǎng) AI 科技評論按：視覺與語言的結(jié)合，相較于分割、檢測來講是比較新的研究領(lǐng)域，但或許正是因?yàn)槿绱?，在這個領(lǐng)域還有很多有待探索的地方。本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國論文宣講研討會中第四個 Session——「Vision and Language」環(huán)節(jié)的四場論文報告。

在第一個報告中，微軟亞洲研究院的段楠博士介紹了他們將 VQA（視覺問答）和 VQG（視覺問題生成）兩項(xiàng)任務(wù)結(jié)合成一個統(tǒng)一模型 iQAN 的工作。由于 VAQ 與 VQG 在某種程度上具有同構(gòu)的結(jié)構(gòu)和相反的輸入輸出，因此兩者可以相互監(jiān)督，以進(jìn)一步同時提升兩個任務(wù)的表現(xiàn)。

第二個報告由來自中科院自動化所黃巖介紹他們在圖文匹配方面的工作。不同與其他方法直接提取圖像和句子的特征然后進(jìn)行相似性比較，他們認(rèn)為（1）圖片比語句包含更多信息；（2）全局圖像特征并不一定好，于是他們提出了先對圖片進(jìn)行語義概念提取，再將這些語義概念進(jìn)行排序，之后再進(jìn)行圖文匹配的比較。

來自西北工業(yè)大學(xué)的王鵬教授在第三個報告中介紹了他們在 Visual Dialog 生成方面的工作，他們提出了一種基于對抗學(xué)習(xí)的看圖生成對話的方法，這種方法可以在保證問答信息的真實(shí)性的情況下，維持對話的連續(xù)性。

在第四個報告中，來自華南理工大學(xué)的譚明奎教授介紹了他們在 Visual Grounding 任務(wù)中的工作，也即給定圖片和描述性語句，從圖中找出最相關(guān)的物體或區(qū)域。他們將這個問題分解為三個子 attetion 問題，并在提取其中一中數(shù)據(jù)的特征時，其他兩個作為輔助信息來提升其提取質(zhì)量。

雷鋒網(wǎng)注：

[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國計算機(jī)學(xué)會計算機(jī)視覺專委會、中國圖象圖形學(xué)會視覺大數(shù)據(jù)專委會合作舉辦，數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會共包含了 6 個 session（共 22 個報告），1 個論壇，以及 20 多個 posters，AI 科技評論將為您詳細(xì)報道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國鹽湖城召開。據(jù) CVPR 官網(wǎng)顯示，今年大會有超過 3300 篇論文投稿，其中錄取 979 篇；相比去年 783 篇論文，今年增長了近 25%。

更多報道請參看雷鋒網(wǎng)：

Session 1：GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

一、融合VQA和VQG

論文：Visual Question Generation as Dual Task of Visual Question Answering
報告人：段楠 - 微軟亞洲研究院
論文下載地址：https://arxiv.org/abs/1709.07192

所謂 visual question answering (VQA)，即輸入 images 和 open-ended questions，生成相關(guān)的 answer；而所謂 visual question generation (VQG)，即輸入 images 和 answers，能夠生成相關(guān)的 questions。

CVPR 2018 中國論文分享會之「視覺與語言」

近來的 VQA 和 VQG 都是兩個比較熱門的研究課題，但是基本上都是獨(dú)立的研究。段楠認(rèn)為這兩項(xiàng)研究本質(zhì)上具有同構(gòu)的結(jié)構(gòu)，即編碼-融合-解碼通道，不同之處只是 Q 和 A 的位置。因此他們提出將這兩個任務(wù)融合進(jìn)同一個端到端的框架 Invertible Question Answering Network (iQAN) 中，利用它們之間的相互關(guān)系來共同促進(jìn)兩者的表現(xiàn)。

針對 VQA 部分，他們選用了目前常用的模型 MUTAN VQA，如下圖所示：

CVPR 2018 中國論文分享會之「視覺與語言」

MUTAN VQA 本質(zhì)上是一個雙線性融合模型?？紤]到 VQG 與 VQA 同構(gòu)，因此他們對 MUTAN 稍加改造（如下圖將 Q、A 位置互換）得到對偶的 MUTAN 形式：

CVPR 2018 中國論文分享會之「視覺與語言」

通過兩個模塊中 q 與 Q，a 與 A 的相互監(jiān)督來提升 VQA 和 VQG 的表現(xiàn)?；谶@樣的思考，他們構(gòu)建了端到端的 iQAN 框架如下：

CVPR 2018 中國論文分享會之「視覺與語言」

這里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相應(yīng)的 VQA loss 和 VQG loss。其次如剛才提到，由 q 與 Q，a 與 A 的相互監(jiān)督得到 dual regularizer 的 loss。另外，image 即作為 VQA 的輸入，也作為 VQG 的輸入，因此它們在參數(shù)上是共享的，因此他們又做了一個 embedding sharing 的部分。

部分實(shí)驗(yàn)結(jié)果如下：

CVPR 2018 中國論文分享會之「視覺與語言」

段楠提到，在這篇文章中他們使用的主要是 MUTAN 的框架，而事實(shí)上可以很容易替換成別的框架，對比實(shí)驗(yàn)如下，分別使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM：

CVPR 2018 中國論文分享會之「視覺與語言」

這里是一個注意力熱圖結(jié)果：

CVPR 2018 中國論文分享會之「視覺與語言」

二、圖文匹配

論文：Learning Semantic Concepts and Order for Image and Sentence Matching
報告人：黃巖 - 中科院自動化所
論文下載地址：https://arxiv.org/abs/1712.02036

一張圖片包含信息豐富多彩，而如果單單用一個句子來描述就會漏掉許多信息。這或許也是當(dāng)前圖像與文本匹配任務(wù)當(dāng)中的一個問題。黃巖等人針對此問題，提出了學(xué)習(xí)圖像語義概念和順序，然后再進(jìn)行圖像/文本匹配的思路。

CVPR 2018 中國論文分享會之「視覺與語言」

如上圖所示，他們希望能先提取出圖像中所包含的基本概念，例如 cheetah、gazelle、grass、green、chasing 等，包括各種事物、屬性、關(guān)系等；然后學(xué)習(xí)出這些語義概念的順序，如 cheetah chasing gazelle grass，顯然這里不同的語義順序也將導(dǎo)致不同的語義意義?；谶@些語義概念和順序在進(jìn)行圖片與文本的匹配。

整體來說，即用多區(qū)域、多標(biāo)簽的 CNN 來進(jìn)行概念預(yù)測，用全局上下文模塊以及語句生成來進(jìn)行順序?qū)W習(xí)。模型框架如下圖所示：

CVPR 2018 中國論文分享會之「視覺與語言」

（a）針對句子用 LSTM 學(xué)習(xí)其特性；（b）使用多區(qū)域、多標(biāo)簽的 CNN 從圖中進(jìn)行語義概念提??；（c）使用 VGGNet 提取上下文信息；（d）利用提取出的語義概念和上下文的信息，例如空間位置等，通過 gated fusion unit 對語義進(jìn)行排序；（e）此外，他們還發(fā)現(xiàn)事實(shí)上語句本身也包含著「順序」的信息，因此他們利用生成的語句作為監(jiān)督來學(xué)習(xí)語義順序，進(jìn)一步提高語義順序的準(zhǔn)確性。最后通過學(xué)習(xí)出的語義概念和順序進(jìn)行相似性打分，判斷圖像與句子是否匹配。

其實(shí)驗(yàn)結(jié)果與當(dāng)前的一些 state-of-art 方法對比如下：

CVPR 2018 中國論文分享會之「視覺與語言」

可以看出，在兩個數(shù)據(jù)集中該方法的表現(xiàn)相比其他方法都有顯著的提升。下面是一個實(shí)例：

CVPR 2018 中國論文分享會之「視覺與語言」

ctx = context，cnp = concept，gen = generation。其中 groundtruth 匹配語句用紅色標(biāo)注；與 groundtruth 有相同意思的句子以下劃線標(biāo)注。

三、看圖寫對話

論文：Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning
報告人：王鵬 - 西北工業(yè)大學(xué)
論文下載地址：https://arxiv.org/abs/1711.07613

所謂 Visual Dialog Generation，簡單來講，即以一張圖片和對話歷史為條件來回答相關(guān)問題。相比于 NLP 領(lǐng)域的對話，其不同之處在于輸入中除了 dialog history 和 question 外，還有一個圖片信息；而相比于 Visual Answer 則多了 dialog history。如下圖所示：

CVPR 2018 中國論文分享會之「視覺與語言」

一個很自然的想法就是仍然使用 Visual Answer 中的方案，將 dialog history 中的每一對對話視作圖片中的一個 fact 去提取和生成。這種方法有一個缺點(diǎn)，及 Visual Answer 任務(wù)的重點(diǎn)是針對問題給出一個盡可能對的答案。但是對于 dialog 任務(wù)來講，除了回答正確外，還需要維持對話的有序進(jìn)行。在對話中一個好的回答是，除了回答問題外，還要提供更多的信息，以便提問者能夠根據(jù)這信息繼續(xù)問下去。

基于這樣的想法，王鵬等人提出了基于對抗學(xué)習(xí)的方式來生成 Visual Dialog。具體來講，他們使用了較為傳統(tǒng)的 dialog generator，即針對 image、question 和 dialog history 分別使用 CNN 和 LSTM 對其進(jìn)行編碼，隨后經(jīng)過 co-attention 模型對每個 local representation 給出一個權(quán)重，然后將 local feature 做一個帶權(quán)求和從而得到 attented feature，將該 feature 經(jīng)過 LSTM 解碼即可得到一個相應(yīng)的 Answer。

CVPR 2018 中國論文分享會之「視覺與語言」

在這個模型中關(guān)鍵的一點(diǎn)是他們在模型的后面加入一個鑒別器，通過它來區(qū)分輸入的答案是人產(chǎn)生的還是機(jī)器產(chǎn)生的。這里輸入的不僅有相應(yīng)的 question 和 Answer，還有 attention 的 output，以便讓鑒別器在一定的環(huán)境下分析 Q、A 是否合理。鑒別器產(chǎn)生的概率將作為生成器的 reward，以對生成器的參數(shù)進(jìn)行更新。

這里需要重點(diǎn)提一下生成器中的 Co-attention 模型，這是一個序列 Co-attention 模型，他們也曾將這個模型用在 CVPR 2017 中的一篇文章中。如下圖所示：

CVPR 2018 中國論文分享會之「視覺與語言」

首先對 Question 做一個 attention，然后將結(jié)果作為 guidance 在 Image 上做 attention，從而得到 image 的feature；時候再把這兩個的結(jié)果作為 guidance 在 history dialog 上做 attention，得到 history dialog 的 feature；如此往復(fù)，不斷把結(jié)果提高。最終將輸出 feature 作為整個模型的表示。

其算法如下所示：

CVPR 2018 中國論文分享會之「視覺與語言」

其實(shí)驗(yàn)結(jié)果顯示比其他方法有很大提升：

CVPR 2018 中國論文分享會之「視覺與語言」

一個實(shí)例如下：

CVPR 2018 中國論文分享會之「視覺與語言」

可以看出其生成對話的長度，相比其他方法要更長（這某種程度上也意味著包含更多的信息）。

四、如何找到竹筐里的熊貓？

論文：Visual grounding via accumulated attention
報告人：譚明奎 - 華南理工大學(xué)
論文下載地址：暫無

Visual Grounding 任務(wù)是指：當(dāng)給定一張圖片以及一句描述性句子，從圖片中找出最相關(guān)的對象或區(qū)域。形象來說，如下圖：

CVPR 2018 中國論文分享會之「視覺與語言」

Visual Grounding 任務(wù)即從圖中找出「在竹筐中的熊貓」（注意：而不是在地上的熊貓）。

據(jù)譚明奎教授介紹這篇文章的工作是由華南理工大學(xué)的一名本科生完成。在文章中，作者針對此任務(wù)，提出了 Accumulate Attention 方法，將 Visual Grounding 轉(zhuǎn)化為三個子問題，即 1）定位查詢文本中的關(guān)鍵單詞；2）定位圖片中的相關(guān)區(qū)域；3）尋找目標(biāo)物體。

CVPR 2018 中國論文分享會之「視覺與語言」

作者針對這三個子問題分別設(shè)計了三種 Attention 模塊，分別從文本、圖像以及候選物體三種數(shù)據(jù)中提取特征。

CVPR 2018 中國論文分享會之「視覺與語言」

首先針對文本、圖像以及物體，他們分別使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 來提取特征，然后使用 attention 機(jī)制計算出每個三種數(shù)據(jù)特征向量每個元素的權(quán)重。

CVPR 2018 中國論文分享會之「視覺與語言」

作者在提取一種特征的過程中，將另外兩種數(shù)據(jù)的特征作為輔助信息來提高特征提取的質(zhì)量。Accumulate Attention 方法按照循環(huán)的方式不斷對這三種數(shù)據(jù)進(jìn)行特征提取，使得特征的質(zhì)量不斷提高，分配在目標(biāo)相關(guān)的數(shù)據(jù)上的 attention 權(quán)重不斷加大，而分配在無關(guān)的噪聲數(shù)據(jù)上的 attention 權(quán)重則不斷減小。

CVPR 2018 中國論文分享會之「視覺與語言」