• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能開發(fā)者 正文
    發(fā)私信給AI研習(xí)社
    發(fā)送

    0

    機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    本文作者: AI研習(xí)社 2017-02-17 11:56
    導(dǎo)語:如何使用聚類分析對數(shù)據(jù)自動分段。

    機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    編者按:本文作者為美國數(shù)據(jù)分析專家 Bilal Mahmood,他是用戶數(shù)據(jù)分析平臺 Bolt 的創(chuàng)始人之一。在本文中,他詳細(xì)介紹了一種稱為 K-Means Clustering(k均值聚類)的算法,其中包括如何衡量算法效果,以及如何確定你需要生成的數(shù)據(jù)段集數(shù)量。雷鋒網(wǎng)編譯整理,更多AI開發(fā)技術(shù)文章,關(guān)注AI研習(xí)社(微信號:okweiwu)。

    Bilal Mahmood:我們最常做的分析之一,便是在數(shù)據(jù)中提取模式。 比方說,某公司的客戶可被劃分入哪些細(xì)分市場? 我們?nèi)绾卧谟脩艟W(wǎng)絡(luò)中找到特定群體的聚類?

    通過機(jī)器學(xué)習(xí)的方式,我們可以得到這些問題的答案。 即使當(dāng)我們不知道需要查找哪些特定數(shù)據(jù)段,亦或我們的數(shù)據(jù)格式是非結(jié)構(gòu)化數(shù)據(jù),我們都可以有這么一種技術(shù)手段,在算法上,分析出數(shù)據(jù)中合理的數(shù)據(jù)模式,合適的數(shù)據(jù)段和分類結(jié)果。

    在本文中,我們將會詳細(xì)介紹一種算法,K-Means Clustering(K均值聚類),包括如何衡量其效果,以及如何確定我們要生成的數(shù)據(jù)段集數(shù)量。

    監(jiān)督VS無監(jiān)督學(xué)習(xí)

      機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    在數(shù)據(jù)分類領(lǐng)域里,有兩種有效的機(jī)器學(xué)習(xí)方式。

    通過監(jiān)督學(xué)習(xí),如果你搞清楚哪些輸入能映射到哪些離散數(shù)據(jù)段,便可以對結(jié)果的分類做預(yù)測。 但在許多情況下,實際上不會有這些預(yù)定義好的標(biāo)簽,而只有非結(jié)構(gòu)化數(shù)據(jù)——根本沒有定義好的數(shù)據(jù)段。這時,您可能就需要借助無監(jiān)督學(xué)習(xí),從未標(biāo)記的數(shù)據(jù)中推理出目標(biāo)數(shù)據(jù)段。

    為了更清楚一些,我們以分類T恤尺寸為例

    如果我們拿到如圖1A所示數(shù)據(jù)集,我們將有一組寬度(X1)和長度(X2)的輸入,以及他們對應(yīng)的T恤衫尺寸(S(藍(lán)色)L(綠色)) 。 在這種情況下,我們就可以通過監(jiān)督學(xué)習(xí)的技術(shù),如邏輯回歸,來繪制一個明確的決策邊界,并分離出各類T恤。

    但如果我們得到一個如圖1B所示的數(shù)據(jù)集,我們得到一組寬度(X1)和長度(X2)的輸入,但沒有對應(yīng)的T恤衫尺寸標(biāo)簽。 在這種情況下,我們就需要使用K均值聚類等無監(jiān)督式學(xué)習(xí)技術(shù),來找到相似的T恤衫,并將它們聚集到小(藍(lán)色圓圈)和大(綠色圓圈)的各個類中。

    在現(xiàn)實世界的許多應(yīng)用中,你將面臨如圖2A所示的情況,因此搞明白如何從非結(jié)構(gòu)化的數(shù)據(jù)中提取出結(jié)構(gòu),會有很大的用處。

    K均值聚類 機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    K均值聚類給無監(jiān)督機(jī)器學(xué)習(xí)提供了一個非常直觀的應(yīng)用,在非結(jié)構(gòu)化的數(shù)據(jù)中歸納出結(jié)構(gòu),

    K均值聚類,正如其名,會將您的數(shù)據(jù)中相似的觀察結(jié)果,分配到同組簇中。 它包括4個簡單重復(fù)的步驟,迭代地評估對每個觀察值有最近(平均)距離的簇。 因此,如果一組觀察結(jié)果彼此接近,它們可能屬于一組簇。

    讓我們逐步細(xì)細(xì)了解該算法。 第一步,隨機(jī)初始化一組聚類中心(上面圖2A中的X),或者說,是各組簇的中心。在開始之前,你可以將這些聚類中心設(shè)置在任何地方,但我們建議,在你對其初始化的時候,用與你設(shè)定的觀察值相匹配的隨機(jī)點。您將依次利用這些類中心,來對你的觀察值進(jìn)行分組,將那些與類中心平均距離最近的觀察值(圖2B中的藍(lán)色和綠色圓圈)確定一個聚類歸屬。

    該步驟會將數(shù)據(jù)初始化成幾組簇,將你的數(shù)據(jù)中與類中心最接近的觀察值聚集到一起。 但是這些第一次分配后的數(shù)據(jù)簇,可能不是十分合適的。 所以下一步,你會將你的聚類好的數(shù)據(jù)簇移動到一個更接近,更合適的位置。即在每個當(dāng)前已有的各個簇中 找到它們的平均觀察值,然后你的聚類中心移動到該位置來(圖2C)。 然后,以新的聚類中心為基準(zhǔn),找到的平均距離最近的觀察值,并將其分配到新的簇(圖2D)

    您可以重復(fù)進(jìn)行此過程:簇分配-查找平均距離-移動聚類中心,直到達(dá)到收斂。 一旦你找到了一組簇,而且其中所有的觀察值都能找到最接近的聚類中心,那就不需要再繼續(xù)評估最近的平均距離和移動了。 那些分組在一起的觀察值將被聚類,這樣的話它們可以在輸入中共享相似性(如由它們對同一聚類中心所表現(xiàn)出的接近度),你也為你的數(shù)據(jù)找到了一組合適的聚類方式。

    你使用了多少組簇?

    機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    K均值聚類是一種有效的方法,可以為你的數(shù)據(jù)找到一個良好的聚類方式。 但仍然有一個問題,一開始你如何決定要使用多少組簇?

    當(dāng)你不清楚非結(jié)構(gòu)化數(shù)據(jù)集的標(biāo)簽或者分類時,需要無監(jiān)督學(xué)習(xí)的方式(如K均值聚類)來輔助。 因此,數(shù)據(jù)本身不會告訴你,簇的正確數(shù)量(或標(biāo)簽)是多少。

    那么,你該如何衡量自己數(shù)據(jù)用多少組簇呢? 最簡單的方法是利用測量簇的誤差,具體如下:

    機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    此函數(shù)通過比較觀察值(X)與其指定的聚類中心(μ)之間的距離來評估簇的誤差。 如果每個對應(yīng)的聚類中心均呈現(xiàn)最低距離,或者最低總體誤差最低,那么這些聚類中心就是與數(shù)據(jù)最符合的聚類結(jié)果。

    回到我們T恤衫尺寸的示例,我們?nèi)绾问褂迷撜`差函數(shù)來確定正確的簇的數(shù)目? 一種方法是“肘部法則”,如上圖3所示。 通過繪制數(shù)據(jù)相對于你初始化的簇的數(shù)量的誤差,你可以發(fā)現(xiàn)誤差變化率最尖銳的點。 圖3中似乎是在兩個簇的地方,表明我們應(yīng)該可能去劃分為小和大兩種。

    雷鋒網(wǎng)提醒,該方法需要注意:通常在你的誤差曲線中沒有明顯的拐點。 因此,不可能總是使用肘部法則來確定合適數(shù)量的簇。

    在這種情況下,建議依靠你的直覺或者待解決的問題的上下文。 例如,在T恤尺寸案例中,你可能很清楚你想將T恤分為5種尺寸 - 超小型,小型,中型,大型和超大型。但這并不是數(shù)據(jù)給你提示清楚的,但基于你的直覺,你可以初始化為五個簇數(shù)量,并得到合適的聚類。

    總而言之,對于到一個聚類問題,K均值聚類提供了一種可迭代的并且有效的算法來發(fā)掘數(shù)據(jù)中的結(jié)構(gòu)。

    雷鋒網(wǎng)注:這篇博文是基于吳恩達(dá)在 Coursera 機(jī)器學(xué)習(xí)課程中教授的概念。

    via kdnuggets

    機(jī)器學(xué)習(xí)算法實踐 K均值聚類的實用技巧

    分享:

    編輯

    聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产AV。| 日韩a无v码在线播放| 激情综合网激情综合| 日韩成人综合| 色老头一区二区三区在线观看 | 91尤物国产尤物福利在线| 怡春院欧美一区二区三区免费| 国产视频Chinese| 亚洲无码一卡二卡三卡| 亚洲欧洲日韩综合不卡| 99精品视频在线观看婷婷| 欧美一本大道香蕉综合视频| 国产日韩精品欧美一区灰 | gogogo高清在线观看视频中文| 美女自卫慰黄网站| 亚洲日韩成人无码| 久久成人国产精品免费软件| 91久久偷偷做嫩草影院| 日韩精品一区二区蜜臀av| 亚洲春色在线视频| 黄色影院91| 人妻少妇乱子伦精品| 汕尾市| 欧美 日韩 人妻 高清 中文| 日韩色无码一级毛片一区二区-百| 小雪被老外黑人撑破了视频| 国产亚洲综合一区二区三区| 国产99视频在线观看| 人妻无码内射| 一区二区三区五区亚洲无色 | 久久99国产精品尤物| 一本加勒比hezyo无码人妻| 久久96热在精品国产高清| 色欲天天综合| sihu永久在线播放地址| 免费特级毛片| 日本精品视频| 中文字幕亚洲精品人妻| 中文字幕av无码免费一区| 中文字幕在线观看网址| 风韵丰满熟妇啪啪区老熟熟女 |