專訪騰訊AI Lab劉威：視覺+NLP交叉將持續(xù)升溫，視頻理解的研究將再上一個臺階 | CVPR 回顧

本文作者：溫曉樺

2017-08-10 14:31

導(dǎo)語：CVPR 2017期間，雷鋒網(wǎng)AI科技評論與AI Lab 計算機視覺中心總監(jiān)劉偉博士聊了聊這些論文成果產(chǎn)生的背后，以及對CV未來研究的想法。

雷鋒網(wǎng)AI科技評論報道，2017年計算機視覺領(lǐng)域頂級學術(shù)會議CVPR（IEEE Conference on Computer Vision and Pattern Recognition）剛剛結(jié)束，今年CVPR上，一共783篇論文被收錄，錄取率29%，口頭報告錄取率僅2.65%。作為國內(nèi)著名的人工智能研究機構(gòu)，騰訊AI Lab（騰訊人工智能實驗室）共有六篇論文入選CVPR。它們是：

論文一：Real Time Neural Style Transfer for Videos

本文用深度前向卷積神經(jīng)網(wǎng)絡(luò)探索視頻藝術(shù)風格的快速遷移，提出了一種全新兩幀協(xié)同訓(xùn)練機制，能保持視頻時域一致性并消除閃爍跳動瑕疵，確保視頻風格遷移實時、高質(zhì)、高效完成。

論文二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

論文首次提出一種全尺寸、無標注、基于病理圖片的病人生存有效預(yù)測方法WSISA，在肺癌和腦癌兩類癌癥的三個不同數(shù)據(jù)庫上性能均超出基于小塊圖像方法，有力支持大數(shù)據(jù)時代的精準個性化醫(yī)療。

論文三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

針對圖像描述生成任務(wù)，SCA-CNN基于卷積網(wǎng)絡(luò)的多層特征來動態(tài)生成文本描述，進而建模文本生成過程中空間及通道上的注意力模型。

論文四：Deep Self-Taught Learning for Weakly Supervised Object Localization

本文提出依靠檢測器自身不斷改進訓(xùn)練樣本質(zhì)量，不斷增強檢測器性能的一種全新方法，破解弱監(jiān)督目標檢測問題中訓(xùn)練樣本質(zhì)量低的瓶頸。

論文五：Diverse Image Annotation

本文提出了一種新的自動圖像標注目標，即用少量多樣性標簽表達盡量多的圖像信息，該目標充分利用標簽之間的語義關(guān)系，使得自動標注結(jié)果與人類標注更加接近。

論文六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

基于曼哈頓結(jié)構(gòu)與對稱信息，文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。

專訪騰訊AI Lab劉威：視覺+NLP交叉將持續(xù)升溫，視頻理解的研究將再上一個臺階 | CVPR 回顧

騰訊AI Lab于2016年4月正式成立，主要圍繞圖像識別、語音識別、自然語言處理和機器學習4個方向進行研究。在今年3月第10屆UEC杯世界計算機圍棋賽決賽中，騰訊 AI Lab研發(fā)的圍棋人工智能程序“絕藝”（Fine Art）擊敗日本開發(fā)的“DeepZenGo”，以11戰(zhàn)全勝的戰(zhàn)績奪冠，就瀟灑地展示了實驗室的算法實力。

騰訊副總裁姚星曾表示，和集團其他更多針對于產(chǎn)品應(yīng)用而展開研究的團隊不同，騰訊AI Lab 的目標是增強騰訊的人工智能原創(chuàng)性、基礎(chǔ)性研究。從上述入選論文主題也可以看出，研究主題更多體現(xiàn)為方法論的突破。其中，雷鋒網(wǎng)此前報道《深度學習集體瓶頸，產(chǎn)業(yè)化加速時代CV研究出路在哪里？| CVPR 2017》指出，「Diverse Image Annotation」用少量多樣性標簽表達盡量多的圖像信息，以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」討論的弱監(jiān)督學習等作品，體現(xiàn)了當前CV研究遭遇瓶頸而又晨光微啟的時代中一個創(chuàng)新突破的方向。

那么，這些論文成果背后的想法，以及騰訊AI Lab對未來CV未來研究創(chuàng)新的判斷是怎樣的呢？CVPR 2017期間，雷鋒網(wǎng)AI科技評論與AI Lab 計算機視覺中心總監(jiān)劉威博士進行了交流，以下是對話實錄（有刪減）：

雷鋒網(wǎng)：這是您第幾次參加CVPR？

劉威：我參加CVPR有超過10年歷史，最早一次是2005年。

雷鋒網(wǎng)：您曾說，CVPR的口頭報告一般是當年最前沿的研究課題，在學界和工業(yè)界都影響很大。能否談一談您對今年CVPR的看法？

劉威：在本屆CVPR里，錄取論文涉及的領(lǐng)域占比最高的五類是：計算機視覺中的機器學習（24%）、物體識別和場景理解（22%）、3D視覺（13%）、低級和中級視覺（12%）、分析圖像中的人類（11%）。

從我們研究方向和興趣出發(fā)，團隊也非常關(guān)注其中的五個前沿領(lǐng)域：低中層視覺、圖像描述生成、3D視覺、計算機視覺與機器學習、弱監(jiān)督下的圖像識別等。

雷鋒網(wǎng)：據(jù)了解，這次實驗室重點解析了《視頻的實時神經(jīng)風格遷移》「Real Time Neural Style Transfer for Videos」這一篇，為什么是選中這一篇呢？

劉威：團隊在本屆CVPR上有六篇文章被錄取，雖然數(shù)量不多，但我對質(zhì)量還算滿意。這篇論文所研究的實時視頻濾鏡技術(shù)，已在騰訊QQ手機版上線，實現(xiàn)基礎(chǔ)研究到應(yīng)用的迅速轉(zhuǎn)化，形成了一個較好的閉環(huán)，與我們“學術(shù)有影響，工業(yè)有產(chǎn)出”的研究目標相契合。

雷鋒網(wǎng)：《視頻的實時神經(jīng)風格遷移》這一個突破，將會給目前的視頻處理和應(yīng)用帶來什么變化和價值？

劉威：該研究成果表明在訓(xùn)練時加入對視頻時域一致性的考慮，能夠約束前向神經(jīng)網(wǎng)絡(luò)生成時域一致的編輯結(jié)果。

在過去很長一段時間內(nèi)，業(yè)界流行的圖像濾鏡通常只是對全局顏色屬性的調(diào)整，比如亮度、色相、飽和度等。在2016年的CVPR，Gatys等人首創(chuàng)性地提出將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像的藝術(shù)風格遷移，使得輸入圖像能夠模仿如梵高的星空、莫奈的日出印象等任何類型的藝術(shù)風格，效果驚艷。

Gatys等人工作雖然取得了非常好的效果，但是缺點是基于優(yōu)化，非常耗時；到2016 ECCV時，Johnson等人提出了使用深度前向神經(jīng)網(wǎng)絡(luò)替代優(yōu)化過程，實現(xiàn)了實時的圖像風格遷移，修圖工具Prisma隨之風靡一時。但直接將圖像風格遷移的方法應(yīng)用到視頻上，卻會使得原本連貫的視頻內(nèi)容在不同幀中轉(zhuǎn)化為不一致的風格，造成視頻的閃爍跳動，嚴重影響觀感體驗。為了解決閃爍問題，Ruder等人加入了對時域一致性的考慮，提出了一種基于優(yōu)化的視頻藝術(shù)濾鏡方法，但速度極慢遠遠達不到實時。

騰訊AI Lab使用深度前向卷積神經(jīng)網(wǎng)絡(luò)，探索視頻藝術(shù)風格快速遷移的可能，提出了一種全新的兩幀協(xié)同訓(xùn)練機制，保持了視頻時域一致性，消除了閃爍跳動瑕疵，同時保證視頻風格遷移能夠?qū)崟r完成，兼顧了視頻風格轉(zhuǎn)換的高質(zhì)量與高效率。

類似的方法也有望能夠助力其他圖像編輯方法向視頻推廣。

雷鋒網(wǎng)：在這六篇論文成果中，除了通用的視頻媒體解析，也涉及到醫(yī)學等細分領(lǐng)域的研究，請問騰訊AI Lab如何選擇研究方向？

劉威：在基礎(chǔ)和前沿研究方向上，CV團隊目前聚焦中高層視覺，尤其視頻等可視結(jié)構(gòu)數(shù)據(jù)的深度理解，同時也在重要的交叉領(lǐng)域發(fā)力，如視覺+NLP、視覺+信息檢索等。

正在進行或計劃中的研究項目兼具了挑戰(zhàn)性和趣味性，包括超大規(guī)模圖像分類、視頻編輯與生成、時序數(shù)據(jù)建模和增強現(xiàn)實，這些項目吸引了哥倫比亞和清華等海內(nèi)外知名大學的優(yōu)秀實習生參與。

雷鋒網(wǎng)：實際應(yīng)用中，似乎很多時候?qū)D像的處理不只是視覺問題，更多可能是涉及NLP的方法，對于這些交叉的現(xiàn)象，能否結(jié)合實際應(yīng)用來談?wù)勀目捶ǎ?/span>

劉威：現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)很多都是視覺與文本信號共同出現(xiàn)，譬如騰訊視頻，不僅有視頻信息，還有音頻信息，還有相應(yīng)的字幕、評論和彈幕等信息——如何挖掘或者學習它們之間的相關(guān)性也是業(yè)界的研究熱點。近年來計算機視覺+NLP相結(jié)合，出現(xiàn)了很多熱點的研究問題，譬如圖像文本匹配、圖像描述生成、圖像問答等。

今年的CVPR的其中一個keynote也是邀請了NLP領(lǐng)域斯坦福大學的知名教授Dan Jurafsky，討論了language方面的研究進展。因此，多個交叉領(lǐng)域的研究，更能推動研究成果在實際業(yè)務(wù)場景中的應(yīng)用。

雷鋒網(wǎng)：在《Deep Self-Taught Learning for Weakly Supervised Object Localization》和《Diverse Image Annotation》中提到的方法似乎都更強調(diào)了機器學習的自主性，請問這是否代表著哪個領(lǐng)域的一些突破？

劉威：我認為這在研究的實用價值上實現(xiàn)了一定突破。以第一篇文章為例，它描述的是從較少的、質(zhì)量低下的數(shù)據(jù)中進行的模型學習。模型在不斷學習后，性能增強，從而能自主地選擇更多數(shù)據(jù)、并選取其中質(zhì)量更高的進行模型訓(xùn)練，提升模型性能，從而實現(xiàn)模型的自主學習。

這種依靠模型自身達到數(shù)據(jù)從少到多，從差到好的自主獲取過程，在如今海量數(shù)據(jù)且質(zhì)量良莠不齊的情況下更具有實用指導(dǎo)價值。

雷鋒網(wǎng)：在今年的CVPR會議上，一個據(jù)稱要接棒ImageNet的WebVision比賽也公布了第一期獲獎名單，后者相比數(shù)據(jù)標注的分析處理，它更強調(diào)圖像學習和理解，請問如何看待這個事情？實現(xiàn)所謂圖像的學習和理解，當前存在哪些挑戰(zhàn)？未來要實現(xiàn)這個突破，還要經(jīng)歷一個怎樣的創(chuàng)新期？在這個創(chuàng)新過程中，哪些技術(shù)比較有潛力？

劉威：2012年深度學習技術(shù)的興起，讓計算機視覺自此有了長足發(fā)展。除了物體檢測與識別這類經(jīng)典的中層視覺問題，在圖像去噪、去模糊、超分辨率和語義分割等低層視覺問題解決上也有了很大的飛躍。

從最近兩屆 CVPR 廣受關(guān)注的論文來看，未來CV領(lǐng)域的研究除了會繼續(xù)提升經(jīng)典視覺問題的算法性能，伴隨著新數(shù)據(jù)集設(shè)計及細分研究領(lǐng)域上的新挑戰(zhàn)，一些有趣且有挑戰(zhàn)的研究問題也將會受到更大關(guān)注。我個人認為，視覺+NLP的交叉將持續(xù)升溫，視頻分析理解（包括視頻分類、視頻物體分割等）的研究將再上一個臺階。

AI慕課學院近期推出了《NLP工程師入門實踐班：基于深度學習的自然語言處理》課程!

三大模塊，五大應(yīng)用，海外博士講師手把手教你入門NLP，更有豐富項目經(jīng)驗相授；算法+實踐，搭配典型行業(yè)應(yīng)用；隨到隨學，專業(yè)社群，講師在線答疑！

課程地址：http://www.mooc.ai/course/427

加入AI慕課學院人工智能學習交流QQ群：624413030，與AI同行一起交流成長

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。