• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給汪思穎
    發(fā)送

    0

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    本文作者: 汪思穎 2017-11-10 14:59
    導(dǎo)語:數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量等與深度學(xué)習(xí)算法之間的關(guān)系

    雷鋒網(wǎng) AI科級(jí)評(píng)論按,深度模型在機(jī)器學(xué)習(xí)很多領(lǐng)域都取得了巨大成功,但也對算法的原材料訓(xùn)練數(shù)據(jù)提出了更多的要求。對于研發(fā)高水平的算法,數(shù)據(jù)的高質(zhì)量采集、清洗、處理等等對算法效果會(huì)有直接影響。

    在近期雷鋒網(wǎng) AI研習(xí)社的線上分享會(huì),來自 BasicFinder 標(biāo)注平臺(tái)的數(shù)據(jù)科學(xué)家吳昊為大家介紹了數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量等與深度學(xué)習(xí)算法之間的關(guān)系,以及為算法做數(shù)據(jù)準(zhǔn)備的一些經(jīng)驗(yàn)。

    吳昊,本科畢業(yè)于上海交通大學(xué),碩士畢業(yè)于紐約大學(xué),現(xiàn)任 BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家,專注于數(shù)據(jù)眾包策略研究、深度學(xué)習(xí)模型數(shù)據(jù)采集與標(biāo)記方案咨詢及優(yōu)化。

    分享內(nèi)容:

    大家好,我叫吳昊。本科畢業(yè)于上海交通大學(xué),研究生畢業(yè)于紐約大學(xué)。我之前做過兩年左右的算法研究工作,我們公司 BasicFinder 平臺(tái)主要提供一些數(shù)據(jù)方面的服務(wù),包括采集、標(biāo)注、清洗、其它別的加工等等。我今天分享的主題是AI數(shù)據(jù)面面觀。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    下面是今天分享的目錄,分為四部分:

    • 數(shù)據(jù)規(guī)模

    • 數(shù)據(jù)質(zhì)量

    • 無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)

    • 做算法研發(fā)在數(shù)據(jù)準(zhǔn)備方面的注意事項(xiàng)

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    數(shù)據(jù)規(guī)模

    先看數(shù)據(jù)規(guī)模,數(shù)據(jù)規(guī)模與算法模型的容量其實(shí)是比較相關(guān)的。算法模型的容量越大,就意味著算法能表示相對來說更復(fù)雜的關(guān)系。

    當(dāng)數(shù)據(jù)規(guī)模相對過大時(shí),在訓(xùn)練過程中容易產(chǎn)生欠學(xué)習(xí)(underfitting)。另一方面,在數(shù)據(jù)規(guī)模相對過小的情況下,就會(huì)產(chǎn)生過學(xué)習(xí)(overfitting)。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    近年來流行的深度學(xué)習(xí)模型可以擁有非常大的容量,模型中普遍用的神經(jīng)網(wǎng)絡(luò)算法,層數(shù)可以增加,每層神經(jīng)元個(gè)數(shù)可以增加,那么模型的表達(dá)能力也會(huì)增加。下圖是一個(gè)例子。此外學(xué)術(shù)界也會(huì)做一些新的研究來增加模型的表達(dá)能力。另一方面得益于GPU,比較復(fù)雜模型的訓(xùn)練也會(huì)比以前快很多。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    現(xiàn)在有一個(gè)問題,數(shù)據(jù)更多的話效果就會(huì)更好,那么究竟有多好呢?Google的一遍論文解決了這個(gè)問題。 

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    這個(gè)數(shù)據(jù)集是ImageNet的兩百多倍。隨著數(shù)據(jù)集里樣本數(shù)量的增多,在COCO上的結(jié)果比用之前的數(shù)據(jù)集至少高出三個(gè)點(diǎn),而在算法的其他方面都沒有太多變化。可以看到數(shù)據(jù)規(guī)模的增大對算法的效果提升還是比較明顯的。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    在工業(yè)界,數(shù)據(jù)規(guī)模更容易成為算法研發(fā)的關(guān)鍵因素。如果有更多的數(shù)據(jù),就可以使用容量更大、更復(fù)雜的模型,得到效果更好的算法。當(dāng)數(shù)據(jù)大到一定程度,數(shù)據(jù)和算法之間可以進(jìn)行反復(fù)迭代,形成壁壘,為公司提供競爭力。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    數(shù)據(jù)質(zhì)量

    數(shù)據(jù)質(zhì)量會(huì)影響算法效果。

    對于質(zhì)量一般的數(shù)據(jù),比如經(jīng)過爬蟲得來的數(shù)據(jù),經(jīng)過清洗、處理后,算法效果會(huì)有明顯提升。如果數(shù)據(jù)質(zhì)量已經(jīng)很高了,再去提升數(shù)據(jù)質(zhì)量,算法效果的提升比較有限。

    另外還要考慮到成本和收益的權(quán)衡問題:想獲得質(zhì)量更高的數(shù)據(jù),成本也會(huì)更高。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    接下來講一下對數(shù)據(jù)質(zhì)量的評(píng)估。數(shù)據(jù)質(zhì)量評(píng)估主要包括兩個(gè)方面,一是原始采集數(shù)據(jù)質(zhì)量,二是數(shù)據(jù)標(biāo)注質(zhì)量。

    下面是對原始采集數(shù)據(jù)質(zhì)量的評(píng)估:

    • 圖像、視頻:分辨率,清晰度,光照,色彩等

    • 語音:清晰度,背景音等

    • 文本:是否自然語言,是否專業(yè),與主題相關(guān)性等

    下面是對數(shù)據(jù)標(biāo)注質(zhì)量的評(píng)估:

    • 標(biāo)注正確率(類別數(shù)據(jù))

    • 標(biāo)注精確度(坐標(biāo)、時(shí)間點(diǎn)、個(gè)數(shù)、文字等)

    • 標(biāo)注完備性(是否漏,是否重復(fù))

    • 標(biāo)注一致性(前后規(guī)則是否一致)

    人工標(biāo)記的大規(guī)模數(shù)據(jù)一般都會(huì)含有噪聲,一些經(jīng)典數(shù)據(jù)集也含有噪聲,例如人臉LFW、MS COCO等,這是不可避免的,不過在可以接受的限度內(nèi)就行。 

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)

    接下來談一下無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí),遷移學(xué)習(xí)已經(jīng)有一個(gè)比較大的數(shù)據(jù)集作為基礎(chǔ)了,再用人工標(biāo)注一小部分新數(shù)據(jù)。

    對于無監(jiān)督學(xué)習(xí),基本上不需要人工標(biāo)注,主要是學(xué)習(xí)數(shù)據(jù)本身的分布特性。比如說聚類算法,就是試圖找出數(shù)據(jù)集中分布的中心,所以不太需要人工標(biāo)注。

    目前工業(yè)界相對來說比較好的結(jié)果還是通過監(jiān)督學(xué)習(xí)而來,很多都需要大量人工標(biāo)注的數(shù)據(jù)。無監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)在未來還是有待學(xué)術(shù)界研究,以望更大的突破。另外,在未來數(shù)據(jù)規(guī)模進(jìn)一步提升的情況下,無監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)會(huì)有更多的用武之地。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    數(shù)據(jù)準(zhǔn)備方面的一些經(jīng)驗(yàn)

    最后介紹我們在開展業(yè)務(wù)中的一些經(jīng)驗(yàn)。

    數(shù)據(jù)準(zhǔn)備最開始是數(shù)據(jù)獲取,數(shù)據(jù)的獲取也分為幾種情況,比較常見的是互聯(lián)網(wǎng)公開獲取(公開數(shù)據(jù)集、爬蟲等),除此之外還有專業(yè)數(shù)據(jù)采集。在專業(yè)數(shù)據(jù)采集時(shí),需要考慮采集方式:一是采集內(nèi)容、采集規(guī)模、預(yù)算;二是采集過程要盡量與實(shí)際使用場景相一致;三是要考慮對數(shù)據(jù)集的要求,比如多樣性;四是采集是否涉及隱私、個(gè)人權(quán)利如肖像權(quán)、著作權(quán)等。

    最后還有采集時(shí)間的要求。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    然后是數(shù)據(jù)清洗。采集來的數(shù)據(jù)很多都需要清洗,例如爬蟲、監(jiān)控視頻等。

    數(shù)據(jù)清洗之后就要進(jìn)行數(shù)據(jù)標(biāo)注,標(biāo)注的規(guī)則要盡可能地詳盡、清楚,需要給出文檔和例子。專業(yè)的標(biāo)注過程,一般有試標(biāo)階段,這個(gè)階段需要詳細(xì)了解并確定需求。此外,在試標(biāo)和正式標(biāo)注過程中也會(huì)遇到不確定的情況,需要及時(shí)進(jìn)行溝通,否則可能會(huì)影響到整體標(biāo)注質(zhì)量。

    對于數(shù)據(jù)標(biāo)注的方式,以及最終的輸出格式,都需要算法研發(fā)人員來制定,有可能的話還是盡量使用常見的方式和格式。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    數(shù)據(jù)標(biāo)記完之后就是數(shù)據(jù)審查。做審查主要參考對數(shù)據(jù)質(zhì)量的要求(正確率、精確度、完備性、一致性等)。審查方式有抽查、排查特殊指標(biāo)、利用某些特征排查異常值這幾種。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    結(jié)論如下:對于算法來說,數(shù)據(jù)越多越好、越廣越好、越準(zhǔn)越好。在現(xiàn)有的情況下,監(jiān)督學(xué)習(xí)的效果優(yōu)于無監(jiān)督學(xué)習(xí)/遷移學(xué)習(xí)。

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    視頻:

    雷鋒網(wǎng) AI科技評(píng)論。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊:從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系(分享總結(jié))

    分享:
    相關(guān)文章

    編輯

    關(guān)注AI學(xué)術(shù),例如論文
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲AV电影不卡在线观看| 无码专区 人妻系列 在线| 中文字幕一二区| 亚洲色综合久久五月| 中文字幕熟妇人| 国产亚洲一区二区三不卡| 日韩人妻少妇一区二区三区 | 永州市| 四虎在线播放亚洲成人| 国产精品一二区在线观看| 男人猛躁进女人免费播放| 最新永久无码AV网址亚洲| 亚洲熟女国产熟女二区三区| 美女在线视频一区二区三区| 一卡二卡三卡成人在线| 六月婷婷综合| 精品中文人妻在线不卡| 屄视频| 丁香五月亚洲综合在线| аⅴ天堂中文在线网| 亚洲春色在线视频| 欧美z0zo人禽交另类视频| 国产综合色在线精品| 亚洲人妻自拍| 在线无码av一区二区三区| 亚洲欧洲日韩国内精品| 国产黄片在线播放| 日本少妇| 亚洲 欧美 日韩 第三区 | 久久精品视频18| 亚洲中文字幕在线一区二区三区| 亚洲精品成人久久av| 老熟妇老熟女老女人天堂| 思思热在线视频精品| 久久夜色噜噜噜亚洲av| 偷窥村妇洗澡毛毛多| 九九热精品视频在线| 99国产欧美另类久久久精品| 亚洲国产成人午夜在线一区| 黑人牲交| 伊人久久大香线蕉AV仙人|