關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

本文作者：我在思考中

2021-10-26 18:24

導語：獲獎者分享參賽時的過程和獲獎感受。

如何憑借“數(shù)據(jù)增強”技術獲得吳恩達首屆 Data-centric AI 競賽的最佳創(chuàng)新獎？

作者 | 杏花

編輯 | 青暮

吳恩達（英文名 Andrew Ng，是人工智能和機器學習領域國際上最權威的學者之一）在今年 6 月的時候宣布首屆以數(shù)據(jù)為中心的人工智能（Data-centric AI）競賽即將開賽，參賽“作品”的提交日期截止到9月初。10月初，吳恩達在其個人社交平臺Twitter上向我們宣布了此次競賽的獲獎者，隨后，也在其個人微信公眾號上向我們簡要介紹了競賽的參與情況。

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

這次競賽共有489個參賽個人和團隊提交了2458個獨特的數(shù)據(jù)集。僅僅通過改進數(shù)據(jù)（而不是模型架構，這是硬標準），許多參賽者能夠?qū)?4.4%的基準性能提高20%以上。最佳性能組的獲獎者的成績在86.034%至86.405%之間。“最具創(chuàng)新力獎”和“榮譽獎”的獲獎者則都采用了新穎的方法，也取得了出色的成績。

經(jīng)過角逐，Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分別獲得了最佳性能組的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 則是最具創(chuàng)新獎的獲獎者，此外，Pierre-Louis bessecond 和 Team KAIST-AIPRLab 獲得了榮譽獎。吳恩達激動萬分地表示對所有參賽者感到驕傲。

那么，獲獎者對贏得吳恩達首屆 Data-centric AI 競賽的心情是怎樣的呢？以下是此次競賽最佳創(chuàng)新獎得主之一 Johnson Kuan 發(fā)布的博文，記錄了他參賽時的過程以及獲獎后的感受。

博文具體內(nèi)容如下：

在過去的幾個月里，我有幸參加了吳恩達首屆 Data-centric AI 競賽。在此，我很高興能和大家分享我是如何憑借“數(shù)據(jù)增強（Data Boosting）”技術獲得最佳創(chuàng)新獎的。

這場競賽真正的獨特之處在于，與傳統(tǒng)的 AI 競賽不同，它嚴格關注如何改進數(shù)據(jù)而不是模型，從我個人的經(jīng)驗來看，這通常是改進人工智能系統(tǒng)的最佳方式。

考慮到有大量的開源機器學習模型庫（包括預訓練的深度學習模型），模型方面對大多數(shù)商業(yè)應用程序來說或多或少是一個已解決的問題。我們需要的是新工具和創(chuàng)新技術來系統(tǒng)地改進數(shù)據(jù)，Andrew顯著地將其稱為烹飪（訓練模型）的高質(zhì)量食材。

這篇博文的其余部分將由三個主要部分組成：

1. 大賽概述

2. 我的“數(shù)據(jù)增強”技術解決方案

3. 這項技術的動機以及如何將它推廣到不同的應用程序

大賽概述

在本次競賽中，每個參與者手里有大小約為 3K 的圖像，這些圖像是從 1 到 10 的手寫羅馬數(shù)字，我們的任務是優(yōu)化模型在羅馬數(shù)字分類方面的性能。此外，我們還獲得了一本包含 52 張圖像的標簽簿，作為我們自己實驗的小測試集，本標簽簿不用于最終評估。

具體的競賽規(guī)則鏈接如下：

https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

模型架構保持固定（cut off ResNet50）并訓練 100 個 epoch，同時根據(jù)驗證集的準確性在 epoch 中選擇模型權重。

雖然模型和訓練過程是固定的，但我們可以自由改進數(shù)據(jù)集并更改訓練和驗證數(shù)據(jù)分割。我們還可以添加新的圖像，但在訓練和驗證分割中提交的圖像組合必須小于10K。

提交我們改進的數(shù)據(jù)集后，參與者將根據(jù)隱藏的圖像測試集進行評估。

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

訓練數(shù)據(jù)集里的一個例子

考慮到最終提交的圖像只能小于 10K，因此，參與者必須專注于在缺乏“大數(shù)據(jù)”的情況下獲取“好數(shù)據(jù)”，這是因為 Andrew 覺得 “大數(shù)據(jù)” 在更傳統(tǒng)的行業(yè)（如制造業(yè)、農(nóng)業(yè)和醫(yī)療保健）的人工智能應用中非常常見。

2

我的“數(shù)據(jù)增強”技術解決方案

在進入解決方案的關鍵部分之前，我做的第一件事是遵循固定標簽和刪除不良數(shù)據(jù)的常見做法。

為了簡化這個工作流程，我編寫了一個 Python 程序來評估給定的數(shù)據(jù)集（在將其輸入固定模型和訓練程序之后），并生成一個包含每個圖像記錄指標的電子表格。

該電子表格包含給定標簽、預測標簽（使用固定模型）和每個圖像的損失，這對于分離不準確和邊緣情況非常有用。下面舉例。

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

由 Python 生成的數(shù)據(jù)評估電子表格示例，用于簡化以數(shù)據(jù)為中心的 AI 工作流程。

我最初使用這個電子表格來識別標記錯誤的圖像和明顯不是羅馬數(shù)字 1-10 的圖像（例如，在原始訓練集中就有一個心臟圖像）。

現(xiàn)在我們來看看“數(shù)據(jù)增強”技術。以下是高級步驟：

從訓練數(shù)據(jù)中生成一組非常大的隨機增強圖像（將這些視為“候選”來源）。
訓練初始模型并預測驗證集。
使用另一個預訓練模型從驗證圖像和增強圖像中提取特征（即嵌入）。
對于每個錯誤分類的驗證圖像，利用提取的特征從增強圖像集中檢索最近鄰（基于余弦相似度）。將這些最近鄰增強圖像添加到訓練集。我將這個過程稱為“數(shù)據(jù)增強”。
使用添加的增強圖像重新訓練模型并預測驗證集。
重復步驟 4-6，直到達到 10K 圖像的限制。

這個迭代過程見下圖：

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

將來自訓練集的增強圖像作為候選源的“數(shù)據(jù)增強”過程

在“數(shù)據(jù)增強”過程中需要注意的幾點：

-雖然我在這次競賽中使用了增強圖像，但在實踐中我們可以使用任何大的圖像集作為數(shù)據(jù)源。
-我從訓練集中生成了大約 1M 的隨機增強圖像作為候選來源。
-數(shù)據(jù)評估電子表格用于跟蹤不準確（錯誤分類的圖像）并注釋數(shù)據(jù)。另外，我還創(chuàng)建了一個帶有PostgreSQL 后端的 Label Studio 實例，但由于不必要的開銷，我決定不將其用于本次比賽。
-對于預訓練模型，我使用了在 ImageNet 上訓練的 ResNet50。
-我使用 Annoy 包來執(zhí)行近似最近鄰搜索。
-每個錯誤分類的驗證圖像要檢索的最近鄰的數(shù)量是一個超參數(shù)。

Label Studio 鏈接：https://labelstud.io/

Annoy 包鏈接：https://github.com/spotify/annoy

從圖像中提取特征的一件很酷的事情是，我們可以使用 UMAP 在 2D 中將它們可視化，以更好地理解訓練和驗證集的特征空間。在下面的可視化中，我們可以看到，有趣的是，給定的訓練數(shù)據(jù)分布與給定的驗證數(shù)據(jù)不匹配。在特征空間的左下角有一個區(qū)域我們沒有驗證圖像。這表明，在運行上面的“數(shù)據(jù)增強”過程之前，可以嘗試重新調(diào)整訓練和驗證數(shù)據(jù)分割。

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

這項技術的動機以及如何將它推廣到不同的應用程序

我的方法受到以下四件事的啟發(fā)：

我在原先的作品（見 2019 年的一篇博文）里構建了一個電影推薦系統(tǒng)，這個系統(tǒng)通過從關鍵字標簽中提取電影嵌入并使用余弦相似度來查找彼此相似的電影。
我之前使用過預訓練的深度學習模型將圖像表示為嵌入。
在 Andrej Karpathy 2019 年的演講中，他描述了如何有效地獲取和標記從特斯拉車隊收集的大量數(shù)據(jù)，以解決通常是邊緣情況（分布的長尾）的不準確問題。
我想開發(fā)一種以數(shù)據(jù)為中心的增強算法（類似于梯度增強），其中模型預測中的不準確之處在每個步驟中通過自動獲取與那些不準確之處相似的數(shù)據(jù)來迭代解決。這就是我稱這種方法為“數(shù)據(jù)提升”的原因。

2019年的博文鏈接：

https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616

Andrej Karpathy 2019 年的演講：

https://www.youtube.com/watch?v=FnFksQo-yEY&t=1316s

當我最初考慮這種“數(shù)據(jù)增強”的方法時，我需要弄清楚如何自動生成大量新的候選圖像作為來源。我決定嘗試隨機增強原始訓練數(shù)據(jù)，以生成大量增強圖像作為候選來源。

下一步，我利用預訓練模型提取圖像嵌入，用于計算圖像之間的余弦相似度，從而自動獲取與驗證集中錯誤分類圖像相似的增強圖像。

在這里，使用預訓練模型進行一般特征提取是一種遷移學習方法。我假設通過以這種方式獲取增強圖像，我們可以提高模型從分布的長尾學習模式的機會。正如Andrej Karpathy在2019年特斯拉“自主日”（Tesla’s Autonomy Day）的演講中所指出的那樣：

'這都是關于長尾'

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

此外，由于競賽的數(shù)據(jù)大小限制為 10K 的圖像，這種“數(shù)據(jù)增強”方法是一種確定在給定的約束條件下哪些隨機增強圖像最好包含在訓練集中的方法。

我可以看到這種技術推廣到我們可以訪問的機器學習的不同應用程序中：

為實體（例如圖像、文本文檔）提取嵌入的預訓練模型
可供選擇的大量候選數(shù)據(jù)集（例如特斯拉車隊、網(wǎng)絡上大量的文本語料庫、合成數(shù)據(jù)）

例如，我可以想象將這種技術推廣到文本分類中，我們使用預訓練的 Transformer 模型（比如 Bert）來提取文本的嵌入。然后，我們可以從我們的特定域的驗證集中獲取與不準確性類似的文本（假設有一個大型的在線語料庫）。

結語

我希望這篇博文能說服你加入這場以數(shù)據(jù)為中心的 AI 運動。在更廣泛地應用人工智能方面，還有許多令人興奮的工作要做。我相信，對人工智能系統(tǒng)數(shù)據(jù)管理的共同關注將使我們實現(xiàn)這一目標。

如果你有任何問題或希望合作，請隨時與我們聯(lián)系。你可以在 LinkedIn 或 Twitter 上找到我。

最后，特別感謝傳奇人物吳恩達發(fā)起本次競賽。

原文鏈接：

https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

雷鋒網(wǎng)

0人收藏

我在思考中

運營

發(fā)私信

當月熱門文章

關注數(shù)據(jù)而不是模型：我是如何贏得吳恩達首屆 Data-centric AI 競賽的

2我的“數(shù)據(jù)增強”技術解決方案

2

我的“數(shù)據(jù)增強”技術解決方案