單考慮分布偏移遠不夠！真實數據很復雜，「外部有效性」不可或缺

本文作者：我在思考中

2022-05-23 10:27

導語：數據偏移一直在可信人工智能上的一項“殺手锏”。然而，僅關注分布偏移就足夠了嗎？

作者丨Deborah Raji

解讀 | Antonio

編輯丨陳彩嫻

數據分布偏移（data distribution shift）是可信人工智能系統(tǒng)熱衷于考慮的一個話題，每年關于它的相關研究數不勝數。然而，僅關注分布偏移就足夠了嗎？

近期，紐約大學AI Now研究所的技術研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個人博客argmin上發(fā)表了對這一話題的看法。

她對于學界過度關注分布偏移感到擔憂，認為更應該考慮統(tǒng)計上一個相關概念，即外部有效性（external vadality）。

單考慮分布偏移遠不夠！真實數據很復雜，「外部有效性」不可或缺

數據分布偏移

數據偏移一直在可信人工智能上的一項“殺手锏”。例如，由美國史詩系統(tǒng)公司研發(fā)、被密歇根大學醫(yī)院廣泛應用的敗血癥識別模型在2020年4月由于頻繁出現虛假報警，而被緊急叫停。據分析，這是因為新冠大流行導致的人口地理學特征發(fā)生了變化才使得模型出現偏差。

這是數據分布偏移的一個例子：當測試集的數據與訓練集的數據分布發(fā)生變化時候，模型無法有效遷移到新的應用場景下導致出錯。

這和不斷變化的本質相關：真實世界的數據往往是動態(tài)的、變化的、不確定的，例如軟件部署變化，人口遷移，行為變化，語言演變等，如果模型不將這些予以考慮，就會出現系統(tǒng)性偏差。

Benjamin Recht發(fā)表過這樣一個另一驚訝的研究，他們重新按照ImageNet的數據收集方式收集了一批新的測試集，用原有的模型對新測試集進行準確性測試，發(fā)現了如下的結果：

單考慮分布偏移遠不夠！真實數據很復雜，「外部有效性」不可或缺

其中，橫軸代表在原始數據測試集的測試性能，縱軸代表新數據集上的測試性能，藍色的每個點代表一個模型的結果，紅色的線則是對它們的線性擬合，黑色的虛線y=x代表理論上測試結果應該具有的表現。

可以看出，盡管二者之間仍然存在線性相關，即在原數據集上表現好的，在新的數據集也表現得很好，反之亦然；然而，它們之間仍相差將近15%的差距，這就是由于數據分布偏差所導致的。這里的偏差可能來自不同的標注者偏好，不同的數據收集過程等等。

研究現狀

Deborah Raji承認研究這種現象的重要性，但她認為ML的研究者們太過于執(zhí)著于關注分布偏移這一話題了，以至于很多情況下將模型的任何失誤都歸因于了分布偏移，而她認為這是不合適的。

首先，她認為“分布偏移”這一問題有時候太過具體，有時候又不夠具體。任何數據上的變化都可以認為是一種“分布偏移”，例如數據特征本身的變化、數據標簽的變化以及二者都發(fā)生的變化。

另一方面，這一術語又太寬泛模糊了。“數據分布”這個概念自身就需要假設數據來自一個假象的“真實”分布中，而現實可以觀察到的數據則是從這一整體分布中獨立同分布的采樣數據。然而這個分布是什么呢？沒人知道——真實數據混亂、無序、不可預知。

數據分布偏移了，可是哪些部分發(fā)生了變化，為什么它們發(fā)生，這些都無從得知。

Deborah Raji進而警告道，對于這一術語的癡迷會如何限制ML社區(qū)的發(fā)展。一個表現是，現在的社區(qū)熱衷于開發(fā)檢測數據分布偏移的基準測試，以此來聲稱測試偏移的程度。然而這些數據是靜態(tài)的、理想的，無法適應真實世界更加復雜的數據。

有些研究已經開始得出結論：過度強調數據分布偏移已經使得ML實踐者和政策制定者更專注于回顧性研究（retrospective studies），而非前瞻性研究（prospective studies）。前者針對于靜態(tài)收集的歷史性數據而言，后者則更加著重于系統(tǒng)的上下文背景。

回顧性研究與前瞻性研究

為此，Deborah Raji希望研究可以更加轉向“有效性”（validity）這一概念。有效性是統(tǒng)計中測度論（measurement theory）中的重要概念，用以衡量系統(tǒng)的可信賴性。有效性又包含內部有效性（internal validity）和構建有效性（construct validity）。當討論泛化性的時候，我們更關注于外部有效性（external validity）。

外部有效性

外部有效性衡量模型如何泛化到其它場景、設定。這些測試的設定往往不是實驗原有的環(huán)境，并且考慮到不僅僅是數據方面的變化。

Deborah Raji以一篇文章為例，這篇發(fā)表在JAMA的，名為“在住院患者中廣泛使用的敗血癥預測模型的外部有效性分析”對于開頭中的那個例子中的模型做了更加詳盡的“外部有效性”分析。

外部有效性分析模型的論文

網址：https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先這篇文章描述了一項關于 2018 年 12 月至 2019 年 10 月期間（尤其是在大流行開始之前）使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者，發(fā)現Epic模型預測敗血癥發(fā)病的曲線下面積為 0.63，而“這比其開發(fā)人員報告的性能要差得多”。

此外，該工具“未識別出 1,709 名敗血癥患者（67%），因此造成了很大的虛假報警。”

這些研究人員正確地將這些問題描述為“外部有效性”問題，并詳細研究了它們，這遠遠超出了“臨床醫(yī)生和數據集偏移”——一個靜態(tài)的偏移數據集中描述的數據分布偏移。

對于Epic 系統(tǒng)的評估是基于 2013 年至 2015 年 3 個美國衛(wèi)生系統(tǒng)的數據，這與密歇根大學 2018-2019 年的患者記錄數據不同。但該評估不僅僅考慮數據問題，還評估了醫(yī)生與模型交互的變化以及這些變化如何影響結果，以及其他與數據幾乎沒有關系的外部有效性因素——這遠超過了數據分布偏移。

即使在討論實質性的數據更改時，研究者們也會試圖具體描述它是什么，并具體分析在他們醫(yī)院部署時發(fā)生的差異。

關于作者

單考慮分布偏移遠不夠！真實數據很復雜，「外部有效性」不可或缺

作者Deborah Raji是尼日利亞裔加拿大計算機科學家和活動家，她致力于研究算法偏見、人工智能問責制和算法審計。她曾與 Google 的Ethical AI 團隊合作，并曾在紐約大學AI和AI Now研究所的合作伙伴關系中擔任研究員，致力于研究如何在機器學習工程實踐中考慮道德因素，曾于AI公正性研究的Timnit Gebru做過同事，也曾獲得過該領域多個獎項。

Deborah Raji與Ben Recht已經在這個外部有效性這一話題上已經展開了很多深入的討論，后續(xù)關于這一問題的探討也會陸續(xù)放在arg min的博客上，感興趣的讀者可以關注查看~

參考博客：

https://www.argmin.net/2022/03/31/external-evaluations/

http://www.argmin.net/2022/03/15/external-validity/

單考慮分布偏移遠不夠！真實數據很復雜，「外部有效性」不可或缺

雷峰網(公眾號：雷峰網)

0人收藏

我在思考中

運營

發(fā)私信

當月熱門文章