• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    本文作者: 我在思考中 2022-05-23 10:27
    導語:數據偏移一直在可信人工智能上的一項“殺手锏”。然而,僅關注分布偏移就足夠了嗎?
    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    作者丨Deborah Raji

    解讀 | Antonio

    編輯丨陳彩嫻

    數據分布偏移(data distribution shift)是可信人工智能系統(tǒng)熱衷于考慮的一個話題,每年關于它的相關研究數不勝數。然而,僅關注分布偏移就足夠了嗎?

    近期,紐約大學AI Now研究所的技術研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個人博客argmin上發(fā)表了對這一話題的看法。

    她對于學界過度關注分布偏移感到擔憂,認為更應該考慮統(tǒng)計上一個相關概念,即外部有效性(external vadality)。

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺



    1

    數據分布偏移

    數據偏移一直在可信人工智能上的一項“殺手锏”。例如,由美國史詩系統(tǒng)公司研發(fā)、被密歇根大學醫(yī)院廣泛應用的敗血癥識別模型在2020年4月由于頻繁出現虛假報警,而被緊急叫停。據分析,這是因為新冠大流行導致的人口地理學特征發(fā)生了變化才使得模型出現偏差。

    這是數據分布偏移的一個例子:當測試集的數據與訓練集的數據分布發(fā)生變化時候,模型無法有效遷移到新的應用場景下導致出錯。

    這和不斷變化的本質相關:真實世界的數據往往是動態(tài)的、變化的、不確定的,例如軟件部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會出現系統(tǒng)性偏差。

    Benjamin Recht發(fā)表過這樣一個另一驚訝的研究,他們重新按照ImageNet的數據收集方式收集了一批新的測試集,用原有的模型對新測試集進行準確性測試,發(fā)現了如下的結果:

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    其中,橫軸代表在原始數據測試集的測試性能,縱軸代表新數據集上的測試性能,藍色的每個點代表一個模型的結果,紅色的線則是對它們的線性擬合,黑色的虛線y=x代表理論上測試結果應該具有的表現。

    可以看出,盡管二者之間仍然存在線性相關,即在原數據集上表現好的,在新的數據集也表現得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由于數據分布偏差所導致的。這里的偏差可能來自不同的標注者偏好,不同的數據收集過程等等。



    2

    研究現狀

    Deborah Raji承認研究這種現象的重要性,但她認為ML的研究者們太過于執(zhí)著于關注分布偏移這一話題了,以至于很多情況下將模型的任何失誤都歸因于了分布偏移,而她認為這是不合適的。

    首先,她認為“分布偏移”這一問題有時候太過具體,有時候又不夠具體。任何數據上的變化都可以認為是一種“分布偏移”,例如數據特征本身的變化、數據標簽的變化以及二者都發(fā)生的變化。

    另一方面,這一術語又太寬泛模糊了。“數據分布”這個概念自身就需要假設數據來自一個假象的“真實”分布中,而現實可以觀察到的數據則是從這一整體分布中獨立同分布的采樣數據。然而這個分布是什么呢?沒人知道——真實數據混亂、無序、不可預知。

    數據分布偏移了,可是哪些部分發(fā)生了變化,為什么它們發(fā)生,這些都無從得知。

    Deborah Raji進而警告道,對于這一術語的癡迷會如何限制ML社區(qū)的發(fā)展。一個表現是,現在的社區(qū)熱衷于開發(fā)檢測數據分布偏移的基準測試,以此來聲稱測試偏移的程度。然而這些數據是靜態(tài)的、理想的,無法適應真實世界更加復雜的數據。

    有些研究已經開始得出結論:過度強調數據分布偏移已經使得ML實踐者和政策制定者更專注于回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對于靜態(tài)收集的歷史性數據而言,后者則更加著重于系統(tǒng)的上下文背景。

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    回顧性研究與前瞻性研究

    為此,Deborah Raji希望研究可以更加轉向“有效性”(validity)這一概念。有效性是統(tǒng)計中測度論(measurement theory)中的重要概念,用以衡量系統(tǒng)的可信賴性。有效性又包含內部有效性(internal validity)和構建有效性(construct validity)。當討論泛化性的時候,我們更關注于外部有效性(external validity)。



    3

    外部有效性

    外部有效性衡量模型如何泛化到其它場景、設定。這些測試的設定往往不是實驗原有的環(huán)境,并且考慮到不僅僅是數據方面的變化。

    Deborah Raji以一篇文章為例,這篇發(fā)表在JAMA的,名為“在住院患者中廣泛使用的敗血癥預測模型的外部有效性分析”對于開頭中的那個例子中的模型做了更加詳盡的“外部有效性”分析。

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺
    外部有效性分析模型的論文

    網址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

    首先這篇文章描述了一項關于 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發(fā)現Epic模型預測敗血癥發(fā)病的曲線下面積為 0.63,而“這比其開發(fā)人員報告的性能要差得多”。

    此外,該工具“未識別出 1,709 名敗血癥患者(67%),因此造成了很大的虛假報警。”

    這些研究人員正確地將這些問題描述為“外部有效性”問題,并詳細研究了它們,這遠遠超出了“臨床醫(yī)生和數據集偏移”——一個靜態(tài)的偏移數據集中描述的數據分布偏移。

    對于Epic 系統(tǒng)的評估是基于 2013 年至 2015 年 3 個美國衛(wèi)生系統(tǒng)的數據,這與密歇根大學 2018-2019 年的患者記錄數據不同。但該評估不僅僅考慮數據問題,還評估了醫(yī)生與模型交互的變化以及這些變化如何影響結果,以及其他與數據幾乎沒有關系的外部有效性因素——這遠超過了數據分布偏移。

    即使在討論實質性的數據更改時,研究者們也會試圖具體描述它是什么,并具體分析在他們醫(yī)院部署時發(fā)生的差異。



    4

    關于作者

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    作者Deborah Raji是尼日利亞裔加拿大計算機科學家和活動家,她致力于研究算法偏見、人工智能問責制和算法審計。她曾與 Google 的Ethical AI 團隊合作,并曾在紐約大學AI和AI Now研究所的合作伙伴關系中擔任研究員,致力于研究如何在機器學習工程實踐中考慮道德因素,曾于AI公正性研究的Timnit Gebru做過同事,也曾獲得過該領域多個獎項。

    Deborah Raji與Ben Recht已經在這個外部有效性這一話題上已經展開了很多深入的討論,后續(xù)關于這一問題的探討也會陸續(xù)放在arg min的博客上,感興趣的讀者可以關注查看~

    參考博客:

    https://www.argmin.net/2022/03/31/external-evaluations/
    http://www.argmin.net/2022/03/15/external-validity/

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    雷峰網(公眾號:雷峰網)

    單考慮分布偏移遠不夠!真實數據很復雜,「外部有效性」不可或缺

    分享:
    相關文章
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 久久天天躁狠狠躁夜夜婷| 2019最新国产不卡a国内2018| 五月丁香啪啪| 国产精品国产精品偷麻豆| 动漫AV在线| 国产精品日本一区二区不卡视频| 蜜乳av一区二区蜜臀| 精品无码成人片一区二区| 二区av| 国产精品VA无码一区二区| 亚洲人成小说网站色在线| 成人福利国产午夜AV免费不卡在线 | 亚洲AV无码专区在线电影APP| 人妻教师痴汉电车波多野结衣| 色综合国产| 亚洲久悠悠色悠在线播放| 成人AV专区精品无码国产| 亚洲av伊人久久青青草原| 亚洲欧美成人| 国产伦精品一区二区三区| 日韩福利视频导航| 自拍av一区| a级亚洲片精品久久久久久久| 亚洲第一网站男人都懂| 在线欧美精品一区二区三区| 欧美啪啪视频| 国产精品国三级国产a11| 精品伊人久久久香线蕉| XXXXXHD亚洲日本HD| 亚洲综合久久久| 在线va亚洲va天堂中文字幕| 日本亚洲一区二区精品| 亚洲无码2025| 无吗人妻一区二区| 成人乱码一区二区三区四区| 色噜噜噜亚洲男人的天堂| 综合久久婷婷综合久久| 夜夜嗨AV| 久久无码中文字幕久久无码app| av天堂亚洲天堂亚洲天堂| 亚洲中文有码在线观看|