• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給楊曉凡
    發(fā)送

    1

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    本文作者: 楊曉凡 2017-08-18 11:37
    導(dǎo)語:結(jié)合RNN和CNN特點(diǎn)的conv-RNN,在語義任務(wù)中取得了優(yōu)秀的表現(xiàn)

    雷鋒網(wǎng) AI 科技評(píng)論按:2017年8月13-17日,第23屆國際知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘大會(huì)(KDD)在加拿大哈利法克斯召開。KDD的英文全稱是Knowledge Discovery and Data Mining,即知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘,由美國計(jì)算機(jī)協(xié)會(huì)ACM下的數(shù)據(jù)挖掘分會(huì)舉辦,是國際數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)會(huì)議。 KDD 2017共吸引全世界1144篇論文投遞,收錄216篇,包括清華、中科院、阿里在內(nèi)的中國大陸學(xué)術(shù)界和工業(yè)界共被收錄25篇。

    在 KDD 2017全球論文投稿中,阿里集團(tuán)和螞蟻金服共有5篇論文被大會(huì)收錄,本次被收錄論文涵蓋深度學(xué)習(xí)、大規(guī)模圖計(jì)算、商品智能排序等多個(gè)研究領(lǐng)域,基于真實(shí)的業(yè)務(wù)場(chǎng)景或數(shù)據(jù)樣本,文中部分方法結(jié)論已經(jīng)在業(yè)務(wù)中運(yùn)用。

    比如「A Hybrid Framework for Text Modeling with Convolutional RNN」這篇論文就是對(duì)深度學(xué)習(xí)語義建模的研究,文中提出了一種新的文本語義編碼算法conv-RNN,該模型在參考了較為常用的文本語義編碼模型循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的同時(shí),進(jìn)行了進(jìn)一步的文本語義編碼優(yōu)化,實(shí)現(xiàn)更為精準(zhǔn)的文本分類和問答匹配。論文中的成果已應(yīng)用于阿里智能音響“天貓精靈”。下文為這篇論文的解讀,作者為論文作者王成龍、姜飛俊、楊紅霞。

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    語義編碼的意義

    自然語言這一被人類發(fā)明的信號(hào)系統(tǒng),通常被我們歸為一種“非結(jié)構(gòu)化數(shù)據(jù)”。其原因在于,自然語言文本是由一堆符號(hào)(token)順序拼接而成的不定長(zhǎng)序列,很難直接轉(zhuǎn)變?yōu)橛?jì)算機(jī)所能理解的數(shù)值型數(shù)據(jù),因而無法直接進(jìn)行進(jìn)一步的計(jì)算處理。語義編碼的目標(biāo)即在于如何對(duì)這種符號(hào)序列進(jìn)行數(shù)值化編碼,以便于進(jìn)一步地提取和應(yīng)用其中所蘊(yùn)含的豐富信息。語義編碼是所有自然語言處理(Natural Language Processing,NLP)工作的“第一步“,同時(shí)也很大程度地決定了后續(xù)應(yīng)用的效果。

    傳統(tǒng)的文本編碼方式通常將其當(dāng)作離散型數(shù)據(jù),即將每個(gè)單詞(符號(hào))作為一個(gè)獨(dú)立的離散型數(shù)值,如Bag-of-Words (BOW)、TF-IDF等。但是這類方法忽略了單詞與單詞之間的語義關(guān)聯(lián)性,同時(shí)也難以對(duì)單詞的順序及上下文依賴信息進(jìn)行有效編碼。近幾年,深度學(xué)習(xí)技術(shù)被廣泛的應(yīng)用于NLP領(lǐng)域,并在眾多算法命題上取得了突破。其本質(zhì)在于,深度神經(jīng)網(wǎng)絡(luò)在特征提取(語義編碼)上具有極大的優(yōu)勢(shì)。

    已有方法的瓶頸

    當(dāng)前,較為常用的文本語義編碼模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)。

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    圖1:循環(huán)神經(jīng)網(wǎng)絡(luò) RNN

    循環(huán)神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的序列數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)建模方法。相對(duì)于傳統(tǒng)的前向神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)的主要特點(diǎn)在于,在每個(gè)時(shí)刻,其輸出不僅要依賴于當(dāng)前時(shí)刻的輸入,還要考慮上一時(shí)刻的模型“狀態(tài)”。通過對(duì)歷史狀態(tài)的依賴,RNN模型能夠有效的表征文本數(shù)據(jù)的上下文依存信息。但是,RNN的“宏偉目標(biāo)”——有效管理任意跨度的信息傳遞——往往使得其難以有效的訓(xùn)練,進(jìn)而也限制了其在具體應(yīng)用中的效果。

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    圖2:卷積神經(jīng)網(wǎng)絡(luò) CNN

    另一被廣泛應(yīng)用的語義編碼模型是CNN模型。傳統(tǒng)的CNN建模通常用于解決圖像的特征提取。但近年來,眾多學(xué)者嘗試將其應(yīng)用到文本處理領(lǐng)域。CNN的模型結(jié)構(gòu)來源于對(duì)人類視覺神經(jīng)信號(hào)處理機(jī)制的模擬。與文本數(shù)據(jù)不同的是,圖像數(shù)據(jù)通常被看做一個(gè)二維數(shù)據(jù)結(jié)構(gòu),而相應(yīng)的CNN模型也更適于提取其中的“局部”特征。但與圖像數(shù)據(jù)相似的是,文本數(shù)據(jù)中的上下文依賴通常可以被簡(jiǎn)化為一種“局部”信息,即傳統(tǒng)NLP領(lǐng)域中的N-gram語言模型:文本中一個(gè)詞的具體含義,通常只和上文有限距離內(nèi)的幾個(gè)詞相關(guān)。因此,CNN中的“局部卷積“信息處理機(jī)制同樣可以應(yīng)用于文本數(shù)據(jù)中,用于提取文本中的N-gram特征。但是,與圖像信息不同的是,文本數(shù)據(jù)中的上下文依賴關(guān)系有可能會(huì)經(jīng)歷一個(gè)很長(zhǎng)的跨度。而CNN只能對(duì)固定范圍內(nèi)的局部依存關(guān)系進(jìn)行建模。因此,CNN語義編碼方法也存在一定的缺陷。

    Conv-RNN

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    圖3:論文中提出的 Convolutional RNN

    近期,我們團(tuán)隊(duì)與數(shù)據(jù)技術(shù)及產(chǎn)品部兄弟團(tuán)隊(duì)共同投稿一篇KDD文章,其中提出了一種新的文本語義編碼算法conv-RNN(如圖3所示)。該模型在參考了循環(huán)神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的同時(shí),進(jìn)行了進(jìn)一步的文本語義編碼優(yōu)化。conv-RNN不僅保留了RNN模型對(duì)不定長(zhǎng)跨度的上下文依賴的編碼能力,還利用了CNN模型中常用的最大池化機(jī)制,用以更加簡(jiǎn)潔地從文本數(shù)據(jù)所蘊(yùn)含的豐富信息中抽離出不同的信息表征。此外,在conv-RNN的基礎(chǔ)上,我們還提出了一種新的智能問答(answer selection)模型以及文本分類(sentence classification)模型。為了充分驗(yàn)證所提出的模型的效果,我們分別選取了智能問答及文本分類領(lǐng)域的一批標(biāo)準(zhǔn)數(shù)據(jù)集,與當(dāng)前業(yè)界的最新成果進(jìn)行了對(duì)比驗(yàn)證。

    智能問答

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    圖4:基于 conv-RNN 的問答匹配模型

    智能問答是當(dāng)前比較火的一個(gè)NLP應(yīng)用領(lǐng)域,也被認(rèn)為是NLP研究最有可能于近期實(shí)現(xiàn)商業(yè)化落地的一個(gè)領(lǐng)域。在conv-RNN語義編碼算法基礎(chǔ)之上,我們進(jìn)一步提出了一種新的問答匹配模型。此外,在該模型中,我們還引入了一種“權(quán)值共享”機(jī)制以及attention方法,用以進(jìn)一步提升question-answer匹配效果。

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    表1:?jiǎn)柎鹌ヅ錅y(cè)試結(jié)果

    我們選用了微軟發(fā)布的 WikiQA 數(shù)據(jù)集以及 IBM 發(fā)布的 InsuranceQA 數(shù)據(jù)集用來對(duì)比所提出的模型與業(yè)界現(xiàn)有的頂尖方法,以驗(yàn)證該模型的有效性。由結(jié)果可知,在WikiQA數(shù)據(jù)集上,conv-RNN擊敗了所有現(xiàn)有的頂尖方法,并且在MAP(mean average precision)和MRR(mean reciprocal rank)兩個(gè)指標(biāo)上均取得了較大的提升。在InsuranceQA數(shù)據(jù)集上,conv-RNN在dev和test2兩個(gè)測(cè)試集上均取得了較大的提升,僅在test1上略低于AP-BILSTM。

    文本分類

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    圖5:基于 conv-RNN 的文本分類模型

    在conv-RNN的基礎(chǔ)上,我們進(jìn)一步提出了一種新的文本分類模型(如圖5所示)。為了驗(yàn)證該模型的有效性,我們選取了業(yè)界常用的5個(gè)標(biāo)準(zhǔn)的分類數(shù)據(jù)集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對(duì)比結(jié)果可知,conv-RNN在前4個(gè)數(shù)據(jù)集上均超越了各類業(yè)內(nèi)頂級(jí)的方法。

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    表2:文本分類任務(wù)測(cè)試結(jié)果

    總結(jié)

    語義編碼技術(shù)是所有NLP工作的基礎(chǔ),也是當(dāng)前NLP技術(shù)進(jìn)一步發(fā)展的主要“瓶頸”所在。我們?cè)谡Z義理解以及更上層的智能問答、多輪人機(jī)交互方向已經(jīng)有了一定的技術(shù)積累,后續(xù)還會(huì)繼續(xù)在這一方向發(fā)力,以期能夠盡快做出為大眾服務(wù)的人工智能產(chǎn)品。

    論文地址:http://www.kdd.org/kdd2017/papers/view/a-hybrid-framework-for-text-modeling-with-convolutional-rnn 

    相關(guān)文章:

    精準(zhǔn)投放、動(dòng)態(tài)定價(jià)、更多成交,阿里的新優(yōu)化算法幫廣大淘寶賣家解決廣告投放的難題

    已經(jīng)進(jìn)駐天貓精靈的阿里KDD論文成果:新型文本語義編碼算法conv-RNN | KDD2017

    分享:
    相關(guān)文章

    讀論文為生

    日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 精品久久久久久无码国产| 毛片1520| 日日视频色| 色老99久久九九爱精品| 乌克兰美女浓毛bbw| av无码中出一区二区三区| japan黑人极大黑炮| 香港日本三级亚洲三级| 青青草国产精品日韩欧美| av无码免费在线观看| 国产亚洲精| 日韩精品无码免费专区网站| 中文字幕日韩有码| 日本偷拍自影像视频久久| 亚洲 日本 欧洲 欧美 视频| 久久精品国产福利国产琪琪| 中文字幕人妻在线| 久久久久久久久97| 亚洲在战AV极品无码| 国产精品综合色区av| 亚洲欧美综合精品成人网站| 亚洲影视在线观看| 欧美视频网站www色| 亚洲视频一区| 国产亚洲AV手机在线观看| 久操线在视频在线观看| 日韩精品一区二区三区中文| 热久久这里只有精品国产| 欧美成人18| 窝窝午夜看片| 精品无码国产AV一区二区| 国产精品人妻中文字幕| 亚洲精品综合一区二区三区| 国产xxxx| 亚洲精品人人| 在线观看国产成人AV天堂| 狠狠色丁香婷婷久久综合五月| 亚洲五月天一区二区三区| 免费精品国产自产拍在线观看图片| 久久人妻少妇嫩草av蜜桃| 韩国精品一区视频在线播放|