• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給AI研習(xí)社-譯站
    發(fā)送

    0

    請停止對分類變量進行獨熱編碼!

    本文作者: AI研習(xí)社-譯站 2020-09-03 14:56
    導(dǎo)語:從機器學(xué)習(xí)的角度來看,獨熱編碼對于分類變量編碼并不是一個很好的選擇。

    請停止對分類變量進行獨熱編碼!

    字幕組雙語原文:請停止對分類變量進行獨熱編碼!

    英語原文:Stop One-Hot Encoding Your Categorical Variables.

    翻譯:雷鋒字幕組(chenx2ovowiige


    獨熱編碼,又稱虛擬變量,是一種將分類變量轉(zhuǎn)換為若干二進制列的方法,其中1表示存在屬于該類別的那一行。

    請停止對分類變量進行獨熱編碼!

    很顯然,從機器學(xué)習(xí)的角度來看,它并不是一個對分類變量編碼的很好的選擇。

    一般來說,維度的數(shù)量越低越好,而這種方法很明顯增加了大量的維度。例如,如果我們要有一列代表美國的州(比如加州、紐約州),獨熱編碼就會增加五十個維度。

    它不僅給數(shù)據(jù)集增加了大量的維度,而且冗余信息太多——1偶爾點綴在零的海洋中。這個異常稀疏的矩陣,使得它很難處理優(yōu)化問題。對于神經(jīng)網(wǎng)絡(luò)來說尤其如此,這幾十個空的維度使得神經(jīng)網(wǎng)絡(luò)的優(yōu)化器在錯誤空間中尋找最優(yōu)解時就會遇到許多麻煩。

    更糟糕的是,每一個信息稀疏的列之間都有線性關(guān)系。這意味著一個變量可以很容易地使用其他變量進行預(yù)測,高維度下這會造成的并行性和多線性問題。

    請停止對分類變量進行獨熱編碼!

    最優(yōu)的數(shù)據(jù)集由獨立且包含有價值信息的特征組成,而獨熱編碼張成的空間卻不是這樣的。

    當(dāng)然,如果只有三個或四個類別,獨熱編碼可能還不是那么糟糕,但根據(jù)數(shù)據(jù)集的相對大小,探索其他選擇也是值得。

    目標(biāo)編碼是表示分類列的一種非常有效的方法,只占用一個特征的空間。其又稱均值編碼,列中的每個值都用該類別的目標(biāo)均值代替。這樣可以更直接地表示分類變量和目標(biāo)變量之間的關(guān)系,是一種非常流行的技術(shù)(尤其是在Kaggle比賽上)。

    請停止對分類變量進行獨熱編碼!

    這種編碼方法有一些缺點。首先,它使模型更難學(xué)習(xí)均值編碼變量和另一變量之間的關(guān)系,它只根據(jù)一列變量與目標(biāo)變量的關(guān)系來得出相似性,這既可能是個優(yōu)點也可能是個缺點。

    但主要的是,這種編碼方法會對變量y非常敏感,從而影響模型提取編碼信息的能力。

    由于類別的每一個值都被替換為相同的數(shù)值,模型可能會傾向于過擬合它所見的編碼值(比如將0.8與0.79聯(lián)系成完全不同的東西)。這就是將連續(xù)值視為大量重復(fù)類的影響。

    因此,需要仔細監(jiān)控y變量是否存在異常值。

    要實現(xiàn)這一點,可以使用category_encoders庫。由于目標(biāo)編碼器是一種監(jiān)督方法,所以它需要包含x和y兩個值才能訓(xùn)練。

    請停止對分類變量進行獨熱編碼!

    留一法編碼試圖彌補這種對y變量的依賴,并通過排除當(dāng)前行的數(shù)值來計算平均值作為編碼,使數(shù)值更加多樣化。這種方法可以消除離群值的影響,并生成了更多樣化的編碼值。

    請停止對分類變量進行獨熱編碼!

    由于該方法顯示了每個編碼類相同的數(shù)值和范圍,因此他可以學(xué)到更好的泛化能力。

    與其他方法一樣,留一法編碼可以通過category_encoders庫中的LeaveOneOutEncoder來進行實現(xiàn)。

    請停止對分類變量進行獨熱編碼!

    另一種能實現(xiàn)類似效果的方法是在編碼中加入正態(tài)分布的噪聲,其中正態(tài)分布的標(biāo)準(zhǔn)差是一個可調(diào)節(jié)的參數(shù)。

    貝葉斯標(biāo)簽編碼是一種更偏向數(shù)學(xué)的方法,將標(biāo)簽作為一種編碼方法。只使用平均數(shù)作為度量可能存在一定的欺騙性,因此貝葉斯標(biāo)簽編碼尋求納入標(biāo)簽變量分布的其他統(tǒng)計量,例如它的方差或偏度--被稱為 "高矩"。

    然后通過貝葉斯模型將這些分布的屬性納入其中,從而能夠產(chǎn)生一個更了解類別標(biāo)簽分布的編碼。但是,這種方法結(jié)果可解釋性較差。

    證據(jù)權(quán)重是對分類獨立變量和因變量之間的關(guān)系的另一種微妙的表現(xiàn)。WoE是從信用評分領(lǐng)域演變而來的。它用于衡量違約客戶和還款客戶之間的差異。證據(jù)權(quán)重的數(shù)學(xué)定義是幾率比的自然對數(shù):

    ln (% of non events / % of events)

    WoE越高,表明事件發(fā)生的可能性越大。'非事件'是那些不在某個類別中的事件發(fā)生的百分比。對于邏輯回歸來說,使用證據(jù)權(quán)重建立與因變量的單調(diào)關(guān)系(永遠不會停止向一個方向發(fā)展),并確保邏輯尺度上的類別,這是很自然的一件事。WoE還是另一個度量指標(biāo) "信息值 "的關(guān)鍵組成部分,它可以衡量一個特征能為預(yù)測提供的信息量大小。

    請停止對分類變量進行獨熱編碼!

    這些方法都是有監(jiān)督的編碼器,或者說是考慮目標(biāo)變量的編碼方法,因此他們在預(yù)測任務(wù)中大都效果較好。然而當(dāng)需要進行無監(jiān)督分析時,他們就未必能取得類似的結(jié)果。

    非線性PCA是一種通過使用分類量化來處理分類變量的PCA方法。它可以為類別找到最佳的數(shù)值,從而使常規(guī)PCA的性能(解釋方差)最大化。在下面閱讀更多信息:
    超越普通PCA:非線性主成分分析
    這里的類別編碼文檔中探索其他幾種編碼選項。

    感謝您的閱讀!


    雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新的見解。

    團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)恕⒃谛熒恢驹刚邆儊碜訧BM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學(xué)、早稻田大學(xué)等海內(nèi)外高校研究所。

    如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。

    請停止對分類變量進行獨熱編碼!

    雷鋒網(wǎng)雷鋒網(wǎng)

    請停止對分類變量進行獨熱編碼!

    分享:
    相關(guān)文章

    知情人士

    AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产精品一区中文字幕| 亚洲日韩精品欧美一区二区| 欧美成人一区二区三区不卡| 美女一级毛片无遮挡内谢| 色综合色综合久久综合频道| 国产乱妇无码毛片A片在线看下载| 99热精这里只有精品| 爽爽午夜福利一区二区| 狼友专区| 国产综合AV| 亚洲第一极品精品无码久久| 国产普通话对白刺激| 精品久久久久久无码中文字幕一区 | 色天使AV| 图片一区二区三区| 亚洲AV日韩AV高清在线观看| 国精产品自偷自偷ym使用方法| 亚洲午夜无码久久久久蜜臀av| 久热这里只有精品12| 性欧美丰满xxxx性| 欧美一区二区三区性视频| 麻豆一区二区三区精品蜜桃| 久久99国产精品尤物| 欧美成人猛片aaaaaaa| 精品国产一区二区三区av色诱| 久久亚洲日本不卡一区二区| 高清自拍亚洲精品二区| 最近中文字幕完整版| 视频区 国产 图片区 小说区| 色悠悠撸视频| 亚洲色婷婷久久精品av蜜桃久久| 日韩无码成人电影| 尤物爽到高潮潮喷视频大全 | 内射老阿姨1区2区3区4区| 成人超碰| 99久久婷婷国产综合精品青草漫画 | 国产小受被做到哭咬床单GV| 自拍偷拍网| 欧洲h视频在线免费观看| 国产一区二区小电影| 丰满少妇av无码专区|