CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

本文作者： camel

2018-06-10 21:06

導(dǎo)語(yǔ)：微軟、自動(dòng)化所、西北工業(yè)、華南理工

雷鋒網(wǎng) AI 科技評(píng)論按：視覺(jué)與語(yǔ)言的結(jié)合，相較于分割、檢測(cè)來(lái)講是比較新的研究領(lǐng)域，但或許正是因?yàn)槿绱耍谶@個(gè)領(lǐng)域還有很多有待探索的地方。本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國(guó)論文宣講研討會(huì)中第四個(gè) Session——「Vision and Language」環(huán)節(jié)的四場(chǎng)論文報(bào)告。

在第一個(gè)報(bào)告中，微軟亞洲研究院的段楠博士介紹了他們將 VQA（視覺(jué)問(wèn)答）和 VQG（視覺(jué)問(wèn)題生成）兩項(xiàng)任務(wù)結(jié)合成一個(gè)統(tǒng)一模型 iQAN 的工作。由于 VAQ 與 VQG 在某種程度上具有同構(gòu)的結(jié)構(gòu)和相反的輸入輸出，因此兩者可以相互監(jiān)督，以進(jìn)一步同時(shí)提升兩個(gè)任務(wù)的表現(xiàn)。

第二個(gè)報(bào)告由來(lái)自中科院自動(dòng)化所黃巖介紹他們?cè)趫D文匹配方面的工作。不同與其他方法直接提取圖像和句子的特征然后進(jìn)行相似性比較，他們認(rèn)為（1）圖片比語(yǔ)句包含更多信息；（2）全局圖像特征并不一定好，于是他們提出了先對(duì)圖片進(jìn)行語(yǔ)義概念提取，再將這些語(yǔ)義概念進(jìn)行排序，之后再進(jìn)行圖文匹配的比較。

來(lái)自西北工業(yè)大學(xué)的王鵬教授在第三個(gè)報(bào)告中介紹了他們?cè)?Visual Dialog 生成方面的工作，他們提出了一種基于對(duì)抗學(xué)習(xí)的看圖生成對(duì)話的方法，這種方法可以在保證問(wèn)答信息的真實(shí)性的情況下，維持對(duì)話的連續(xù)性。

在第四個(gè)報(bào)告中，來(lái)自華南理工大學(xué)的譚明奎教授介紹了他們?cè)?Visual Grounding 任務(wù)中的工作，也即給定圖片和描述性語(yǔ)句，從圖中找出最相關(guān)的物體或區(qū)域。他們將這個(gè)問(wèn)題分解為三個(gè)子 attetion 問(wèn)題，并在提取其中一中數(shù)據(jù)的特征時(shí)，其他兩個(gè)作為輔助信息來(lái)提升其提取質(zhì)量。

雷鋒網(wǎng)注：

[1] CVPR 2018 中國(guó)論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專(zhuān)委會(huì)合作舉辦，數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session（共 22 個(gè)報(bào)告），1 個(gè)論壇，以及 20 多個(gè) posters，AI 科技評(píng)論將為您詳細(xì)報(bào)道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國(guó)鹽湖城召開(kāi)。據(jù) CVPR 官網(wǎng)顯示，今年大會(huì)有超過(guò) 3300 篇論文投稿，其中錄取 979 篇；相比去年 783 篇論文，今年增長(zhǎng)了近 25%。

更多報(bào)道請(qǐng)參看雷鋒網(wǎng)：

Session 1：GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

一、融合VQA和VQG

論文：Visual Question Generation as Dual Task of Visual Question Answering
報(bào)告人：段楠 - 微軟亞洲研究院
論文下載地址：https://arxiv.org/abs/1709.07192

所謂 visual question answering (VQA)，即輸入 images 和 open-ended questions，生成相關(guān)的 answer；而所謂 visual question generation (VQG)，即輸入 images 和 answers，能夠生成相關(guān)的 questions。