• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給camel
    發(fā)送

    0

    CVPR 2018 中國論文分享會之「視覺與語言」

    本文作者: camel 2018-06-10 21:06
    導(dǎo)語:微軟、自動化所、西北工業(yè)、華南理工

    雷鋒網(wǎng) AI 科技評論按:視覺與語言的結(jié)合,相較于分割、檢測來講是比較新的研究領(lǐng)域,但或許正是因?yàn)槿绱?,在這個領(lǐng)域還有很多有待探索的地方。本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國論文宣講研討會中第四個 Session——「Vision and Language」環(huán)節(jié)的四場論文報告。

    在第一個報告中,微軟亞洲研究院的段楠博士介紹了他們將 VQA(視覺問答)和 VQG(視覺問題生成)兩項(xiàng)任務(wù)結(jié)合成一個統(tǒng)一模型 iQAN 的工作。由于 VAQ 與 VQG 在某種程度上具有同構(gòu)的結(jié)構(gòu)和相反的輸入輸出,因此兩者可以相互監(jiān)督,以進(jìn)一步同時提升兩個任務(wù)的表現(xiàn)。

    第二個報告由來自中科院自動化所黃巖介紹他們在圖文匹配方面的工作。不同與其他方法直接提取圖像和句子的特征然后進(jìn)行相似性比較,他們認(rèn)為(1)圖片比語句包含更多信息;(2)全局圖像特征并不一定好,于是他們提出了先對圖片進(jìn)行語義概念提取,再將這些語義概念進(jìn)行排序,之后再進(jìn)行圖文匹配的比較。

    來自西北工業(yè)大學(xué)的王鵬教授在第三個報告中介紹了他們在 Visual Dialog 生成方面的工作,他們提出了一種基于對抗學(xué)習(xí)的看圖生成對話的方法,這種方法可以在保證問答信息的真實(shí)性的情況下,維持對話的連續(xù)性。

    在第四個報告中,來自華南理工大學(xué)的譚明奎教授介紹了他們在 Visual Grounding 任務(wù)中的工作,也即給定圖片和描述性語句,從圖中找出最相關(guān)的物體或區(qū)域。他們將這個問題分解為三個子 attetion 問題,并在提取其中一中數(shù)據(jù)的特征時,其他兩個作為輔助信息來提升其提取質(zhì)量。

    雷鋒網(wǎng)注:

    [1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國計算機(jī)學(xué)會計算機(jī)視覺專委會、中國圖象圖形學(xué)會視覺大數(shù)據(jù)專委會合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters,AI 科技評論將為您詳細(xì)報道。

    [2] CVPR 2018 將于 6 月 18 - 22 日在美國鹽湖城召開。據(jù) CVPR 官網(wǎng)顯示,今年大會有超過 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長了近 25%。

    更多報道請參看雷鋒網(wǎng):

    Session 1:GAN and Synthesis

    Session 2: Deep Learning

    Session 3: Person Re-Identification and Tracking

    Session 4: Vision and Language

    Session 5: Segmentation, Detection

    Session 6: Human, Face and 3D Shape


    一、融合VQA和VQG

    論文:Visual Question Generation as Dual Task of Visual Question Answering

    報告人:段楠 - 微軟亞洲研究院

    論文下載地址:https://arxiv.org/abs/1709.07192

    所謂 visual question answering (VQA),即輸入 images 和 open-ended questions,生成相關(guān)的 answer;而所謂 visual question generation (VQG),即輸入 images 和 answers,能夠生成相關(guān)的 questions。

    CVPR 2018 中國論文分享會之「視覺與語言」

    近來的 VQA 和 VQG 都是兩個比較熱門的研究課題,但是基本上都是獨(dú)立的研究。段楠認(rèn)為這兩項(xiàng)研究本質(zhì)上具有同構(gòu)的結(jié)構(gòu),即編碼-融合-解碼通道,不同之處只是 Q 和 A 的位置。因此他們提出將這兩個任務(wù)融合進(jìn)同一個端到端的框架 Invertible Question Answering Network (iQAN) 中,利用它們之間的相互關(guān)系來共同促進(jìn)兩者的表現(xiàn)。

    針對 VQA 部分,他們選用了目前常用的模型 MUTAN VQA,如下圖所示:

    CVPR 2018 中國論文分享會之「視覺與語言」

    MUTAN VQA 本質(zhì)上是一個雙線性融合模型??紤]到 VQG 與 VQA 同構(gòu),因此他們對 MUTAN 稍加改造(如下圖將 Q、A 位置互換)得到對偶的 MUTAN 形式:

    CVPR 2018 中國論文分享會之「視覺與語言」

    通過兩個模塊中 q 與 Q,a 與 A 的相互監(jiān)督來提升 VQA 和 VQG 的表現(xiàn)?;谶@樣的思考,他們構(gòu)建了端到端的 iQAN 框架如下:

    CVPR 2018 中國論文分享會之「視覺與語言」

    這里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相應(yīng)的 VQA loss 和 VQG loss。其次如剛才提到,由 q 與 Q,a 與 A 的相互監(jiān)督得到 dual regularizer 的 loss。另外,image 即作為 VQA 的輸入,也作為 VQG 的輸入,因此它們在參數(shù)上是共享的,因此他們又做了一個 embedding sharing 的部分。

    部分實(shí)驗(yàn)結(jié)果如下:

    CVPR 2018 中國論文分享會之「視覺與語言」

    段楠提到,在這篇文章中他們使用的主要是 MUTAN 的框架,而事實(shí)上可以很容易替換成別的框架,對比實(shí)驗(yàn)如下,分別使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM:

    CVPR 2018 中國論文分享會之「視覺與語言」

    這里是一個注意力熱圖結(jié)果:

    CVPR 2018 中國論文分享會之「視覺與語言」

    二、圖文匹配

    論文:Learning Semantic Concepts and Order for Image and Sentence Matching

    報告人:黃巖 - 中科院自動化所

    論文下載地址:https://arxiv.org/abs/1712.02036

    一張圖片包含信息豐富多彩,而如果單單用一個句子來描述就會漏掉許多信息。這或許也是當(dāng)前圖像與文本匹配任務(wù)當(dāng)中的一個問題。黃巖等人針對此問題,提出了學(xué)習(xí)圖像語義概念和順序,然后再進(jìn)行圖像/文本匹配的思路。

    CVPR 2018 中國論文分享會之「視覺與語言」

    如上圖所示,他們希望能先提取出圖像中所包含的基本概念,例如 cheetah、gazelle、grass、green、chasing 等,包括各種事物、屬性、關(guān)系等;然后學(xué)習(xí)出這些語義概念的順序,如 cheetah chasing gazelle grass,顯然這里不同的語義順序也將導(dǎo)致不同的語義意義?;谶@些語義概念和順序在進(jìn)行圖片與文本的匹配。

    整體來說,即用多區(qū)域、多標(biāo)簽的 CNN 來進(jìn)行概念預(yù)測,用全局上下文模塊以及語句生成來進(jìn)行順序?qū)W習(xí)。模型框架如下圖所示:

    CVPR 2018 中國論文分享會之「視覺與語言」

    a)針對句子用 LSTM 學(xué)習(xí)其特性;(b)使用多區(qū)域、多標(biāo)簽的 CNN 從圖中進(jìn)行語義概念提??;(c)使用 VGGNet 提取上下文信息;(d)利用提取出的語義概念和上下文的信息,例如空間位置等,通過 gated fusion unit 對語義進(jìn)行排序;(e)此外,他們還發(fā)現(xiàn)事實(shí)上語句本身也包含著「順序」的信息,因此他們利用生成的語句作為監(jiān)督來學(xué)習(xí)語義順序,進(jìn)一步提高語義順序的準(zhǔn)確性。最后通過學(xué)習(xí)出的語義概念和順序進(jìn)行相似性打分,判斷圖像與句子是否匹配。

    其實(shí)驗(yàn)結(jié)果與當(dāng)前的一些 state-of-art 方法對比如下:

    CVPR 2018 中國論文分享會之「視覺與語言」

    可以看出,在兩個數(shù)據(jù)集中該方法的表現(xiàn)相比其他方法都有顯著的提升。下面是一個實(shí)例:

    CVPR 2018 中國論文分享會之「視覺與語言」

    ctx = context,cnp = concept,gen = generation。其中 groundtruth 匹配語句用紅色標(biāo)注;與 groundtruth 有相同意思的句子以下劃線標(biāo)注。

    三、看圖寫對話

    論文:Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

    報告人:王鵬 - 西北工業(yè)大學(xué)

    論文下載地址:https://arxiv.org/abs/1711.07613

    所謂 Visual Dialog Generation,簡單來講,即以一張圖片和對話歷史為條件來回答相關(guān)問題。相比于 NLP 領(lǐng)域的對話,其不同之處在于輸入中除了 dialog history 和 question 外,還有一個圖片信息;而相比于 Visual Answer 則多了 dialog history。如下圖所示:

    CVPR 2018 中國論文分享會之「視覺與語言」

    一個很自然的想法就是仍然使用 Visual Answer 中的方案,將 dialog history 中的每一對對話視作圖片中的一個 fact 去提取和生成。這種方法有一個缺點(diǎn),及 Visual Answer 任務(wù)的重點(diǎn)是針對問題給出一個盡可能對的答案。但是對于 dialog 任務(wù)來講,除了回答正確外,還需要維持對話的有序進(jìn)行。在對話中一個好的回答是,除了回答問題外,還要提供更多的信息,以便提問者能夠根據(jù)這信息繼續(xù)問下去。

    基于這樣的想法,王鵬等人提出了基于對抗學(xué)習(xí)的方式來生成 Visual Dialog。具體來講,他們使用了較為傳統(tǒng)的 dialog generator,即針對 image、question 和 dialog history 分別使用 CNN 和 LSTM 對其進(jìn)行編碼,隨后經(jīng)過 co-attention 模型對每個 local representation 給出一個權(quán)重,然后將 local feature 做一個帶權(quán)求和從而得到 attented feature,將該 feature 經(jīng)過 LSTM 解碼即可得到一個相應(yīng)的 Answer。

    CVPR 2018 中國論文分享會之「視覺與語言」

    在這個模型中關(guān)鍵的一點(diǎn)是他們在模型的后面加入一個鑒別器,通過它來區(qū)分輸入的答案是人產(chǎn)生的還是機(jī)器產(chǎn)生的。這里輸入的不僅有相應(yīng)的 question 和 Answer,還有 attention 的 output,以便讓鑒別器在一定的環(huán)境下分析 Q、A 是否合理。鑒別器產(chǎn)生的概率將作為生成器的 reward,以對生成器的參數(shù)進(jìn)行更新。

    這里需要重點(diǎn)提一下生成器中的 Co-attention 模型,這是一個序列 Co-attention 模型,他們也曾將這個模型用在 CVPR 2017 中的一篇文章中。如下圖所示:

    CVPR 2018 中國論文分享會之「視覺與語言」

    首先對 Question 做一個 attention,然后將結(jié)果作為 guidance 在 Image 上做 attention,從而得到 image 的feature;時候再把這兩個的結(jié)果作為 guidance 在 history dialog 上做 attention,得到 history dialog 的 feature;如此往復(fù),不斷把結(jié)果提高。最終將輸出 feature 作為整個模型的表示。

    其算法如下所示:

    CVPR 2018 中國論文分享會之「視覺與語言」

    其實(shí)驗(yàn)結(jié)果顯示比其他方法有很大提升:

    CVPR 2018 中國論文分享會之「視覺與語言」

    一個實(shí)例如下:

    CVPR 2018 中國論文分享會之「視覺與語言」

    可以看出其生成對話的長度,相比其他方法要更長(這某種程度上也意味著包含更多的信息)。


    四、如何找到竹筐里的熊貓?

    論文:Visual grounding via accumulated attention

    報告人:譚明奎 - 華南理工大學(xué)

    論文下載地址:暫無

    Visual Grounding 任務(wù)是指:當(dāng)給定一張圖片以及一句描述性句子,從圖片中找出最相關(guān)的對象或區(qū)域。形象來說,如下圖:

    CVPR 2018 中國論文分享會之「視覺與語言」

    Visual Grounding 任務(wù)即從圖中找出「在竹筐中的熊貓」(注意:而不是在地上的熊貓)。

    據(jù)譚明奎教授介紹這篇文章的工作是由華南理工大學(xué)的一名本科生完成。在文章中,作者針對此任務(wù),提出了 Accumulate Attention 方法,將 Visual Grounding 轉(zhuǎn)化為三個子問題,即 1)定位查詢文本中的關(guān)鍵單詞;2)定位圖片中的相關(guān)區(qū)域;3)尋找目標(biāo)物體。

    CVPR 2018 中國論文分享會之「視覺與語言」

    作者針對這三個子問題分別設(shè)計了三種 Attention 模塊,分別從文本、圖像以及候選物體三種數(shù)據(jù)中提取特征。

    CVPR 2018 中國論文分享會之「視覺與語言」

    首先針對文本、圖像以及物體,他們分別使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 來提取特征,然后使用 attention 機(jī)制計算出每個三種數(shù)據(jù)特征向量每個元素的權(quán)重。

    CVPR 2018 中國論文分享會之「視覺與語言」

    作者在提取一種特征的過程中,將另外兩種數(shù)據(jù)的特征作為輔助信息來提高特征提取的質(zhì)量。Accumulate Attention 方法按照循環(huán)的方式不斷對這三種數(shù)據(jù)進(jìn)行特征提取,使得特征的質(zhì)量不斷提高,分配在目標(biāo)相關(guān)的數(shù)據(jù)上的 attention 權(quán)重不斷加大,而分配在無關(guān)的噪聲數(shù)據(jù)上的 attention 權(quán)重則不斷減小。

    CVPR 2018 中國論文分享會之「視覺與語言」

    其實(shí)驗(yàn)表明 Accumulate Attention 方法在 ReferCOCO、ReferCOCO+、ReferCOCOg 等數(shù)據(jù)集上均取得較好的效果。(其中的 r1、r2、r3、r4 分別代表循環(huán)輪數(shù)。)

    相關(guān)文章:

    CVPR 2018 中國論文分享會 之「人類、人臉及3D形狀」

    CVPR 2018 中國論文分享會 之「深度學(xué)習(xí)」

    CVPR 2018 | 斯坦福大學(xué)提出自監(jiān)督人臉模型:250Hz 單眼可重建

    CVPR 2018 | 英特爾實(shí)驗(yàn)室讓 AI 在夜間也能拍出精彩照片

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    CVPR 2018 中國論文分享會之「視覺與語言」

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲综合色婷婷七月丁香| 亚洲高清无在码在线无弹窗| 色猫咪av在线观看| 人妻蜜臀久久av不卡| 2018男人天堂| 免费 无码 国产在线观看不卡| 欧美成人综合| 成人亚欧欧美激情在线观看| 中文字幕人妻在线精品| 国产少妇| 亚洲国产成人AⅤ毛片奶水| 色哟哟精品无码网站在线播放视频| 99精品视频在线观看| 久久精品国产99国产精品严洲| 国产一区二区三区四区五区加勒比 | 中文字幕精品亚洲二区| 国产99在线 | 欧美| 欧美激情综合网| 亚洲成av人片无码迅雷下载| 国产哟交泬泬视频在线播放| 在线观看国产精品第一区免费| 日韩人妻无码精品系列| 国内综合精品午夜久久资源| 日韩亚洲精品中文字幕| 天堂网av一区二区三区| 亚洲AV乱码一区二区三区按摩| 亚洲国产精品综合福利专区| 性爱电影网站| 国产乱沈阳女人高潮乱叫老| 欧美人人妻人人澡人人尤物| 亚洲小视频| 五月亚洲激情| 亚洲综合欧美日韩| 久久天天躁夜夜躁狠狠85麻豆| 99re66| 野外做受三级视频| 日韩人妻无码一区二区三区俄罗斯| 鲁鲁美女影院| 爱情岛论坛首页永久入口| 国产高潮又爽又刺激的视频| 色欲精品国产一区二区三区av|