「小樣本+AutoML」，改變算法生產的「核武器」？

本文作者：高秀松

2022-01-25 18:16

導語：碎片化場景，要么定制算法，要么改變生產模式。

數據、算法、算力，被稱為AI的三駕馬車。

其中，數據對于算法模型的效果至關重要：以深度學習為核心的AI，為了避免發(fā)生過擬合或欠擬合的情況，需要使用大量數據來進行模型訓練，從而使模型達到更好的擬合優(yōu)度，這對于解決場景問題無疑大有裨益。

不過，通過大量數據來訓練算法，從理論上看無懈可擊，但當AI走向落地場景，就不那么容易了。

以數據問題為例：

對于碎片化場景，數據成了老大難。

1、很多場景不具備數據采集的條件，或者說采集數據成本太高；
2、數據是否有效，無效的數據除了百無一用之外，還會形成噪聲干擾，處理起來也費時；
3、一些場景數據量不夠大，很難做到大樣本。

沒有足夠量的數據，就難以訓練出好的算法模型，解決場景問題也就無從談起。

這實際上是產業(yè)數字化轉型面臨的重大難題之一：以人工智能為核心的數字化轉型，在實際場景落地時，由于技術使用的先決條件存在短板，很難釋放對產業(yè)轉型的推力。

"從成本收益上看，在一些場景下，AI形如雞肋，無法解決實際問題，更無法降本增效。"

中科智云CEO兼首席科學家魏宏峰告訴AI掘金志，數字化轉型趨勢下，隔行如隔山，整個市場需求都是碎片化的，這對AI而言提出了兩大挑戰(zhàn)：要么做場景定制化；要么改變現在的算法生產模式。

但這兩種方式都逃不開前面提到的數據問題。

對于一些封閉場景，比如園區(qū)物流，通過場景定制化方案可以實現全自動化流程，然而這并不適用于碎片化的開放場景；此外，定制化成本過高，單獨開發(fā)算法則會面對投入產出比嚴重不匹配的問題。

因而，比較合適的解決方法，是改變現有的算法生產模式。

這也是小樣本學習（FSL）和AutoML（自動機器學習）火熱的根本原因。

FSL與AutoML

小樣本學習屬于機器學習下的一個分支，誕生于碎片化場景很難獲取足夠有效的數據這一背景下，旨在通過較少的數據量或樣本，來訓練算法模型。

與傳統(tǒng)機器學習相比，小樣本學習的優(yōu)勢在于，不需要大量數據支撐，但這同樣也帶來問題：數據量太少導致經驗風險最小化不可靠。

所謂經驗風險，是指模型關于訓練樣本集的平均損失。通常情況下，樣本容量足夠大（傳統(tǒng)機器學習），經驗風險最小化能保證有很好的學習效果；反之，樣本量太小，經驗風險最小化學習的效果就難以保證。

舉個例子：

假設以小孩子為算法模型，漢字為樣本數據，目標任務是認識漢字"我"。當小孩子抄寫"我"的次數足夠多，那么小孩子的學習效果就更好；反之，如果只抄寫了數次，那么小孩子可能認識"我"，也可能不認識，經驗風險是不可靠的。（案例并不嚴謹，僅供參考）

目前行業(yè)內已經開始通過數據增強、模型約束空間、搜索算法等方式來解決小樣本學習存在的問題。

"如果模型能力足夠強，對樣本的需求并不一定要非常大。"魏宏峰表示，一個好的模型，可通過小樣本學習來形成自我訓練，從而提高算法精度與適應性。

而建立好的算法模型，與AutoML（自動機器學習）密切相關。

在傳統(tǒng)AI算法開發(fā)流程中，從業(yè)務和問題定義，到數據采集和標注、存儲管理、數據分析和可視化，再到模型結構設計、優(yōu)化......最后到應用開發(fā)，需要經歷大概十三個環(huán)節(jié)，其時間成本、開發(fā)成本處于高位。

對于沒有算法開發(fā)能力，但有算法應用需求的企業(yè)而言，這個流程非常"復雜"，且成本較高，難以承受。

因而只專注于算法選取和神經網絡架構搜索的傳統(tǒng)AutoML是無法滿足現實需求的，涵蓋算法研發(fā)全流程的AutoML應運而生，從特征工程、模型構建、超參選擇，優(yōu)化方法四方面實現自動化，其優(yōu)勢在于：既減少了算法生產成本，又提高效率，并且降低了算法生產門檻。

比如，傳統(tǒng)AI算法生產流程中，需要對數據進行人工標注，并且花大量時間處理數據；可以通過自動標注，結合人工復檢，來提高數據標注效率。

在業(yè)界，已經有許多較為成熟的AutoML平臺，國外如FeatureLab（自動進行特征工程）、Google Cloud Vertex AI NAS；國內則有第四范式的AI Prophet AutoML等等。

除此之外，還有一些AI公司，比如中科智云，也在做相應的類似的平臺（X-Brain）。

作為一家聚焦安全治理的AI公司，中科智云主要以X-Brain AI主動學習平臺，融合小樣本學習框架、多源融合感知計算等技術，為行業(yè)提供AI 安全治理服務。

"X-Brain 的核心是一套主動學習算法框架，應用自研的主動學習（Active Learning）技術，改變了監(jiān)督學習的被動接受人工標注樣本的模式。"

魏宏峰告訴AI掘金志，該平臺可通過AI主動判斷樣本是否需要算法工程師的參與，通過只讓算法工程師參與部分困難樣本的確認，形成人在回路（Human-in-the-Loop）模式，主動訓練模型，形成模型自動迭代。

前面提到，小樣本學習是為了解決碎片化場景無法獲取大量數據訓練模型的問題，而AutoML是在傳統(tǒng)算法模式下，通過主動學習來提高算法生產效率，解放人力成本。

換句話說，小樣本學習解決數據難題，AutoML則是提高算法生產效率的新方法，兩者互相結合，或能解決小樣本學習存在的算法精度問題。

不可能三角？

"小樣本是低成本的基礎，因為樣本量小，訓練模型不需要高算力硬件設備。"魏宏峰表示，如何讓小樣本學習達到商用精度，是一個巨大挑戰(zhàn)。

因為，小樣本學習存在經驗風險最小化不可靠這一問題，也就是學習效果不確定，可通俗理解為算法精度可能高，也可能低。

"在一些場景中，小樣本訓練出來的精度，在初期很難達到商用水平。但可以通過AutoML來縮短從初期模型到商用這個過程。"

魏宏峰介紹道，X-Brain在采集樣本之后，通過特征提取自動標注，并自動訓練模型，由具體的業(yè)務人員來進行評價，查看是否發(fā)生誤報，并調整參數。

基于這些調整，該平臺的自動訓練機制，將已標注完的數據放入重新訓練......通過這種循環(huán)訓練，來提高算法精度。

在這個過程中，樣本量小，模型也不大，通過主動訓練來提高精度，從而實現低成本使用。

所以，小樣本、低成本和高精度之間，并非存在一個"不可能三角"。

仍以之前的小孩子識字為例：小孩子只抄寫數次"我"，其結果是可能認識"我"，也可能不認識。如果引入老師進行引導、校正，那么即便抄寫次數較少，其認識漢字"我"的可能更大。

這個案例中，老師扮演了業(yè)務人員的角色，小孩子就是算法模型。算法（小孩子）在自動學習過程中，需要由業(yè)務人員（老師）來調整參數（引導），學習效果也就更好。

其優(yōu)勢在于，給小孩子減負（減少抄寫次數）的同時，提高學習效率（算法精度）；從整個學習過程看，老師（業(yè)務人員）也無需全程監(jiān)督，從而減少成本。

這實際上改變了以往的算法生產模式，將算法生產帶入"平民化""低成本"時代。

AI與場景融合

AI從上半場進入下半場，實際上是從拼技術到拼場景的轉變：AI只有在實際場景中落地才能產生價值。

在產業(yè)數字化轉型中，各種碎片化場景，對算法的精度要求也比較高。如果按照傳統(tǒng)的算法生產模式，成本降不下來，加上中小企業(yè)購買力弱，傳統(tǒng)企業(yè)數字化轉型必然難產。

而多樣化場景中，也很難以通用算法來"一口多吃"。

"不同的場景需要不同的數據樣本，訓練出來的模型也不一樣，通用算法模型并不適用，精度會大打折扣。"

魏宏峰表示，小樣本學習和AutoML從技術上解決算法生產難題，但如何讓技術更好地服務于企業(yè)，解決實際場景問題，就需要把具體場景痛點拆解之后，融入到整個算法生產過程中，從業(yè)務和問題定義開始，到模型調優(yōu)，最后到算法交付，都要"讓懂業(yè)務的人參與"。

這主要體現在兩個方面：一是讓企業(yè)在平臺上進行實驗，也就是業(yè)務試錯；二是與企業(yè)加強交互，讓懂業(yè)務的人員參與到算法訓練中來。

"客戶并不追求百分百的精度，能夠接受誤報，但不能接受試錯成本太高，帶來總成本上升。"魏宏峰認為，AI下半場由場景驅動，其實也是客戶驅動，核心是解決客戶（企業(yè)）在生產過程中遇到的問題。而AI公司要做好場景，最好的方式是直接與熟悉場景的業(yè)務人員交互，而不是AI公司本身去理解行業(yè)，否則成本會很高。

對于企業(yè)而言，考慮成本收益是其購買技術服務的出發(fā)點，成本（包括試錯、時間、人力等多個方面）則是第一要素，其次才考慮技術帶來的收益問題。

魏宏峰表示，企業(yè)購買技術服務之后，只有在降本增效方面取得實際效果，復購率才會提高，AI公司才能形成正向的業(yè)務閉環(huán)。

"AI只有靠業(yè)務，而不是資本推動，才能走出困局，改變行業(yè)。"而做好業(yè)務的首要前提是：結合場景。

不論是小樣本學習還是機器學習，都只是生產算法的"術"，結合場景解決產業(yè)數字化轉型過程中的痛點，才是AI的"康莊大道"。雷峰網雷峰網(公眾號：雷峰網)

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

高秀松

編輯

緊跟科技最前沿

發(fā)私信

當月熱門文章