• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給camel
    發(fā)送

    0

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    本文作者: camel 2018-06-10 21:06
    導(dǎo)語(yǔ):微軟、自動(dòng)化所、西北工業(yè)、華南理工

    雷鋒網(wǎng) AI 科技評(píng)論按:視覺(jué)與語(yǔ)言的結(jié)合,相較于分割、檢測(cè)來(lái)講是比較新的研究領(lǐng)域,但或許正是因?yàn)槿绱耍谶@個(gè)領(lǐng)域還有很多有待探索的地方。本文為 2018 年 5 月 11 日在微軟亞洲研究院進(jìn)行的 CVPR 2018 中國(guó)論文宣講研討會(huì)中第四個(gè) Session——「Vision and Language」環(huán)節(jié)的四場(chǎng)論文報(bào)告。

    在第一個(gè)報(bào)告中,微軟亞洲研究院的段楠博士介紹了他們將 VQA(視覺(jué)問(wèn)答)和 VQG(視覺(jué)問(wèn)題生成)兩項(xiàng)任務(wù)結(jié)合成一個(gè)統(tǒng)一模型 iQAN 的工作。由于 VAQ 與 VQG 在某種程度上具有同構(gòu)的結(jié)構(gòu)和相反的輸入輸出,因此兩者可以相互監(jiān)督,以進(jìn)一步同時(shí)提升兩個(gè)任務(wù)的表現(xiàn)。

    第二個(gè)報(bào)告由來(lái)自中科院自動(dòng)化所黃巖介紹他們?cè)趫D文匹配方面的工作。不同與其他方法直接提取圖像和句子的特征然后進(jìn)行相似性比較,他們認(rèn)為(1)圖片比語(yǔ)句包含更多信息;(2)全局圖像特征并不一定好,于是他們提出了先對(duì)圖片進(jìn)行語(yǔ)義概念提取,再將這些語(yǔ)義概念進(jìn)行排序,之后再進(jìn)行圖文匹配的比較。

    來(lái)自西北工業(yè)大學(xué)的王鵬教授在第三個(gè)報(bào)告中介紹了他們?cè)?Visual Dialog 生成方面的工作,他們提出了一種基于對(duì)抗學(xué)習(xí)的看圖生成對(duì)話的方法,這種方法可以在保證問(wèn)答信息的真實(shí)性的情況下,維持對(duì)話的連續(xù)性。

    在第四個(gè)報(bào)告中,來(lái)自華南理工大學(xué)的譚明奎教授介紹了他們?cè)?Visual Grounding 任務(wù)中的工作,也即給定圖片和描述性語(yǔ)句,從圖中找出最相關(guān)的物體或區(qū)域。他們將這個(gè)問(wèn)題分解為三個(gè)子 attetion 問(wèn)題,并在提取其中一中數(shù)據(jù)的特征時(shí),其他兩個(gè)作為輔助信息來(lái)提升其提取質(zhì)量。

    雷鋒網(wǎng)注:

    [1] CVPR 2018 中國(guó)論文宣講研討會(huì)由微軟亞洲研究院、清華大學(xué)媒體與網(wǎng)絡(luò)技術(shù)教育部-微軟重點(diǎn)實(shí)驗(yàn)室、商湯科技、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專(zhuān)委會(huì)合作舉辦,數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術(shù)觀點(diǎn)。研討會(huì)共包含了 6 個(gè) session(共 22 個(gè)報(bào)告),1 個(gè)論壇,以及 20 多個(gè) posters,AI 科技評(píng)論將為您詳細(xì)報(bào)道。

    [2] CVPR 2018 將于 6 月 18 - 22 日在美國(guó)鹽湖城召開(kāi)。據(jù) CVPR 官網(wǎng)顯示,今年大會(huì)有超過(guò) 3300 篇論文投稿,其中錄取 979 篇;相比去年 783 篇論文,今年增長(zhǎng)了近 25%。

    更多報(bào)道請(qǐng)參看雷鋒網(wǎng):

    Session 1:GAN and Synthesis

    Session 2: Deep Learning

    Session 3: Person Re-Identification and Tracking

    Session 4: Vision and Language

    Session 5: Segmentation, Detection

    Session 6: Human, Face and 3D Shape


    一、融合VQA和VQG

    論文:Visual Question Generation as Dual Task of Visual Question Answering

    報(bào)告人:段楠 - 微軟亞洲研究院

    論文下載地址:https://arxiv.org/abs/1709.07192

    所謂 visual question answering (VQA),即輸入 images 和 open-ended questions,生成相關(guān)的 answer;而所謂 visual question generation (VQG),即輸入 images 和 answers,能夠生成相關(guān)的 questions。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    近來(lái)的 VQA 和 VQG 都是兩個(gè)比較熱門(mén)的研究課題,但是基本上都是獨(dú)立的研究。段楠認(rèn)為這兩項(xiàng)研究本質(zhì)上具有同構(gòu)的結(jié)構(gòu),即編碼-融合-解碼通道,不同之處只是 Q 和 A 的位置。因此他們提出將這兩個(gè)任務(wù)融合進(jìn)同一個(gè)端到端的框架 Invertible Question Answering Network (iQAN) 中,利用它們之間的相互關(guān)系來(lái)共同促進(jìn)兩者的表現(xiàn)。

    針對(duì) VQA 部分,他們選用了目前常用的模型 MUTAN VQA,如下圖所示:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    MUTAN VQA 本質(zhì)上是一個(gè)雙線性融合模型。考慮到 VQG 與 VQA 同構(gòu),因此他們對(duì) MUTAN 稍加改造(如下圖將 Q、A 位置互換)得到對(duì)偶的 MUTAN 形式:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    通過(guò)兩個(gè)模塊中 q 與 Q,a 與 A 的相互監(jiān)督來(lái)提升 VQA 和 VQG 的表現(xiàn)。基于這樣的思考,他們構(gòu)建了端到端的 iQAN 框架如下:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    這里首先是使用 MUTAN 和 Dual MUTAN 的框架生成相應(yīng)的 VQA loss 和 VQG loss。其次如剛才提到,由 q 與 Q,a 與 A 的相互監(jiān)督得到 dual regularizer 的 loss。另外,image 即作為 VQA 的輸入,也作為 VQG 的輸入,因此它們?cè)趨?shù)上是共享的,因此他們又做了一個(gè) embedding sharing 的部分。

    部分實(shí)驗(yàn)結(jié)果如下:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    段楠提到,在這篇文章中他們使用的主要是 MUTAN 的框架,而事實(shí)上可以很容易替換成別的框架,對(duì)比實(shí)驗(yàn)如下,分別使用了 iBWIMG、MLB、MUTAN 和 MUTAN+sharing LSTM:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    這里是一個(gè)注意力熱圖結(jié)果:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    二、圖文匹配

    論文:Learning Semantic Concepts and Order for Image and Sentence Matching

    報(bào)告人:黃巖 - 中科院自動(dòng)化所

    論文下載地址:https://arxiv.org/abs/1712.02036

    一張圖片包含信息豐富多彩,而如果單單用一個(gè)句子來(lái)描述就會(huì)漏掉許多信息。這或許也是當(dāng)前圖像與文本匹配任務(wù)當(dāng)中的一個(gè)問(wèn)題。黃巖等人針對(duì)此問(wèn)題,提出了學(xué)習(xí)圖像語(yǔ)義概念和順序,然后再進(jìn)行圖像/文本匹配的思路。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    如上圖所示,他們希望能先提取出圖像中所包含的基本概念,例如 cheetah、gazelle、grass、green、chasing 等,包括各種事物、屬性、關(guān)系等;然后學(xué)習(xí)出這些語(yǔ)義概念的順序,如 cheetah chasing gazelle grass,顯然這里不同的語(yǔ)義順序也將導(dǎo)致不同的語(yǔ)義意義。基于這些語(yǔ)義概念和順序在進(jìn)行圖片與文本的匹配。

    整體來(lái)說(shuō),即用多區(qū)域、多標(biāo)簽的 CNN 來(lái)進(jìn)行概念預(yù)測(cè),用全局上下文模塊以及語(yǔ)句生成來(lái)進(jìn)行順序?qū)W習(xí)。模型框架如下圖所示:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    a)針對(duì)句子用 LSTM 學(xué)習(xí)其特性;(b)使用多區(qū)域、多標(biāo)簽的 CNN 從圖中進(jìn)行語(yǔ)義概念提取;(c)使用 VGGNet 提取上下文信息;(d)利用提取出的語(yǔ)義概念和上下文的信息,例如空間位置等,通過(guò) gated fusion unit 對(duì)語(yǔ)義進(jìn)行排序;(e)此外,他們還發(fā)現(xiàn)事實(shí)上語(yǔ)句本身也包含著「順序」的信息,因此他們利用生成的語(yǔ)句作為監(jiān)督來(lái)學(xué)習(xí)語(yǔ)義順序,進(jìn)一步提高語(yǔ)義順序的準(zhǔn)確性。最后通過(guò)學(xué)習(xí)出的語(yǔ)義概念和順序進(jìn)行相似性打分,判斷圖像與句子是否匹配。

    其實(shí)驗(yàn)結(jié)果與當(dāng)前的一些 state-of-art 方法對(duì)比如下:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    可以看出,在兩個(gè)數(shù)據(jù)集中該方法的表現(xiàn)相比其他方法都有顯著的提升。下面是一個(gè)實(shí)例:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    ctx = context,cnp = concept,gen = generation。其中 groundtruth 匹配語(yǔ)句用紅色標(biāo)注;與 groundtruth 有相同意思的句子以下劃線標(biāo)注

    三、看圖寫(xiě)對(duì)話

    論文:Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

    報(bào)告人:王鵬 - 西北工業(yè)大學(xué)

    論文下載地址:https://arxiv.org/abs/1711.07613

    所謂 Visual Dialog Generation,簡(jiǎn)單來(lái)講,即以一張圖片和對(duì)話歷史為條件來(lái)回答相關(guān)問(wèn)題。相比于 NLP 領(lǐng)域的對(duì)話,其不同之處在于輸入中除了 dialog history 和 question 外,還有一個(gè)圖片信息;而相比于 Visual Answer 則多了 dialog history。如下圖所示:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    一個(gè)很自然的想法就是仍然使用 Visual Answer 中的方案,將 dialog history 中的每一對(duì)對(duì)話視作圖片中的一個(gè) fact 去提取和生成。這種方法有一個(gè)缺點(diǎn),及 Visual Answer 任務(wù)的重點(diǎn)是針對(duì)問(wèn)題給出一個(gè)盡可能對(duì)的答案。但是對(duì)于 dialog 任務(wù)來(lái)講,除了回答正確外,還需要維持對(duì)話的有序進(jìn)行。在對(duì)話中一個(gè)好的回答是,除了回答問(wèn)題外,還要提供更多的信息,以便提問(wèn)者能夠根據(jù)這信息繼續(xù)問(wèn)下去。

    基于這樣的想法,王鵬等人提出了基于對(duì)抗學(xué)習(xí)的方式來(lái)生成 Visual Dialog。具體來(lái)講,他們使用了較為傳統(tǒng)的 dialog generator,即針對(duì) image、question 和 dialog history 分別使用 CNN 和 LSTM 對(duì)其進(jìn)行編碼,隨后經(jīng)過(guò) co-attention 模型對(duì)每個(gè) local representation 給出一個(gè)權(quán)重,然后將 local feature 做一個(gè)帶權(quán)求和從而得到 attented feature,將該 feature 經(jīng)過(guò) LSTM 解碼即可得到一個(gè)相應(yīng)的 Answer。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    在這個(gè)模型中關(guān)鍵的一點(diǎn)是他們?cè)谀P偷暮竺婕尤胍粋€(gè)鑒別器,通過(guò)它來(lái)區(qū)分輸入的答案是人產(chǎn)生的還是機(jī)器產(chǎn)生的。這里輸入的不僅有相應(yīng)的 question 和 Answer,還有 attention 的 output,以便讓鑒別器在一定的環(huán)境下分析 Q、A 是否合理。鑒別器產(chǎn)生的概率將作為生成器的 reward,以對(duì)生成器的參數(shù)進(jìn)行更新。

    這里需要重點(diǎn)提一下生成器中的 Co-attention 模型,這是一個(gè)序列 Co-attention 模型,他們也曾將這個(gè)模型用在 CVPR 2017 中的一篇文章中。如下圖所示:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    首先對(duì) Question 做一個(gè) attention,然后將結(jié)果作為 guidance 在 Image 上做 attention,從而得到 image 的feature;時(shí)候再把這兩個(gè)的結(jié)果作為 guidance 在 history dialog 上做 attention,得到 history dialog 的 feature;如此往復(fù),不斷把結(jié)果提高。最終將輸出 feature 作為整個(gè)模型的表示。

    其算法如下所示:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    其實(shí)驗(yàn)結(jié)果顯示比其他方法有很大提升:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    一個(gè)實(shí)例如下:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    可以看出其生成對(duì)話的長(zhǎng)度,相比其他方法要更長(zhǎng)(這某種程度上也意味著包含更多的信息)。


    四、如何找到竹筐里的熊貓?

    論文:Visual grounding via accumulated attention

    報(bào)告人:譚明奎 - 華南理工大學(xué)

    論文下載地址:暫無(wú)

    Visual Grounding 任務(wù)是指:當(dāng)給定一張圖片以及一句描述性句子,從圖片中找出最相關(guān)的對(duì)象或區(qū)域。形象來(lái)說(shuō),如下圖:

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    Visual Grounding 任務(wù)即從圖中找出「在竹筐中的熊貓」(注意:而不是在地上的熊貓)。

    據(jù)譚明奎教授介紹這篇文章的工作是由華南理工大學(xué)的一名本科生完成。在文章中,作者針對(duì)此任務(wù),提出了 Accumulate Attention 方法,將 Visual Grounding 轉(zhuǎn)化為三個(gè)子問(wèn)題,即 1)定位查詢(xún)文本中的關(guān)鍵單詞;2)定位圖片中的相關(guān)區(qū)域;3)尋找目標(biāo)物體。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    作者針對(duì)這三個(gè)子問(wèn)題分別設(shè)計(jì)了三種 Attention 模塊,分別從文本、圖像以及候選物體三種數(shù)據(jù)中提取特征。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    首先針對(duì)文本、圖像以及物體,他們分別使用 Hierarchical LSTM、VGG-16 以及 Faster-RCNN 來(lái)提取特征,然后使用 attention 機(jī)制計(jì)算出每個(gè)三種數(shù)據(jù)特征向量每個(gè)元素的權(quán)重。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    作者在提取一種特征的過(guò)程中,將另外兩種數(shù)據(jù)的特征作為輔助信息來(lái)提高特征提取的質(zhì)量。Accumulate Attention 方法按照循環(huán)的方式不斷對(duì)這三種數(shù)據(jù)進(jìn)行特征提取,使得特征的質(zhì)量不斷提高,分配在目標(biāo)相關(guān)的數(shù)據(jù)上的 attention 權(quán)重不斷加大,而分配在無(wú)關(guān)的噪聲數(shù)據(jù)上的 attention 權(quán)重則不斷減小。

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    其實(shí)驗(yàn)表明 Accumulate Attention 方法在 ReferCOCO、ReferCOCO+、ReferCOCOg 等數(shù)據(jù)集上均取得較好的效果。(其中的 r1、r2、r3、r4 分別代表循環(huán)輪數(shù)。)

    相關(guān)文章:

    CVPR 2018 中國(guó)論文分享會(huì) 之「人類(lèi)、人臉及3D形狀」

    CVPR 2018 中國(guó)論文分享會(huì) 之「深度學(xué)習(xí)」

    CVPR 2018 | 斯坦福大學(xué)提出自監(jiān)督人臉模型:250Hz 單眼可重建

    CVPR 2018 | 英特爾實(shí)驗(yàn)室讓 AI 在夜間也能拍出精彩照片

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    CVPR 2018 中國(guó)論文分享會(huì)之「視覺(jué)與語(yǔ)言」

    分享:
    相關(guān)文章
    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 国产乱妇无码大片在线观看| 日韩AV中文字幕在线| 99精品国产兔费观看久久99 | 午夜在线观看成人av| 熟女丝袜av| 崇明县| 国产免费AV片无码永久免费| 国产精品沙发午睡系列990531| 在线观看美女网站大全免费| 亚洲成人在线| 亚洲欧美在线观看| 国产不卡一区二区在线| 五月亚洲| 欧美性猛交xxxx乱大交极品| 超碰成人人人做人人爽| 中文无码制服丝袜人妻AV| 木里| 日韩精品成人av在线观看 | 中文字幕乱码日本道在线观看| 亚洲精品成人国产av| 国产精品原创不卡在线| 亚洲国产av无码精品无广告| 无码精品a∨动漫在线观看| AV探花| 国产成人免费ā片在线观看| 久久国产精品日本波多野结衣 | 50路熟女| 玩弄丰满少妇人妻视频| 国产精品日韩av在线播放| 亚洲图揄拍自拍另类图片| 中国大陆高清aⅴ毛片| 欧美性做爰片免费视频看| 人妻中文字幕不卡精品| 狠狠五月深爱婷婷网| 色悠久久久久综合网香蕉| 亚洲综合激情五月色一区| 成人超碰在线| 国内精品人妻色欲无码久久久| 少妇伦子伦精品无码styles| 99久久机热/这里只有精品| 欧美精欧美乱码一二三四区 |