0

2020年9月5日,由雷鋒網 & AI掘金志主辦的「第三屆中國人工智能安防峰會」在杭州正式召開。
本屆峰會以「洗牌結束,格局重構」為主題,會上代表未來新十年的15家企業,為現場1000余位聽眾和線上幾十萬觀眾,分享迎接安防新十年的經營理念與技術應用方法論。
在大會上,平安科技副總工程師、聯邦學習技術部總經理王健宗帶來了精彩演講。
王健宗指出,目前人工智能在移動互聯網、云計算、大數據、IoT、5G等新技術的驅動下得以迅猛發展, 不過在AI技術落地時總是有所欠缺,即人工智能通用算法在本地化部署過程中所面臨的數據困境,而這一塊恰恰是相關行業或企業所缺乏的。
王健宗認為,其數據困境主要是三點:數據孤島、法律法規監管日趨嚴格,以及傳統AI技術模式下的限制。
聯邦智能正是這一困境的破局之道,它是以聯邦學習為龍頭,同時涵蓋聯邦數據部落、聯邦推理、聯邦激勵機制,共由四大部分組成。面對目前日益苛刻的數據安全隱私的問題,通過構建聯邦學習的技術內核,建立聯邦數據部落,實現具備隱私保護的聯邦推理,并以聯邦激勵機制為紐帶形成一個完整的AI生態格局,從而打破數據壁壘,使人工智能發展邁向新階段。
其中,聯邦學習是隱私保護下的分布式機器學習技術,以及“數據孤島問題”的解決方案。聯邦數據部落,在確保數據安全及用戶隱私的前提下,建立基于聯邦智能的大數據部落生態,充分發揮各行業參與方的數據價值,推動垂直領域案例落地。
聯邦推理,在一個隱私與安全的鏈路過程中,發揮著引擎模型的聯邦推理作用。聯邦激勵機制,它的核心是一個遵循基本準則的閉環學習機制,通過聯合建模協議達成、貢獻度評估、激勵及資金劃定等環節,吸引外部企業參與,加入聯邦智能生態。
平安的蜂巢聯邦智能平臺。在整個平臺中,蜂巢依托平安集團這一綜合性集團背景,能夠提供智慧金融、智慧城市、智慧醫療商用級的一站式解決方案,希望能夠以此激活數據價值,這也是整個平臺的使命。蜂巢平臺的目標是跨企業、跨數據、跨領域,助力整個大數據AI生態。此外,它在營銷、獲客、定價、風控、智慧城市等等方面推出了相關的解決方案。
最后,王健宗總結道,聯邦智能作為樞紐,將會為智慧城市的未來提供更多新的機會。同時,隨著公民隱私安全意識的不斷加深,它將更好地為公眾帶來高品質的個性化服務,并在當前新基建的背景下,立足于數據,依托聯邦智能生態,加速精細化服務時代的到來,這也是聯邦智能的機會。
以下是王健宗演講全文,雷鋒網作了不改變原意的整理與編輯:

平安科技副總工程師、聯邦學習技術部總經理王健宗
剛剛經過幸運的抽獎環節,相信大家也稍微輕松了一些。那么接下來,我將為大家帶來一些不一樣的東西,分享我們在聯邦智能生態中所做的工作創新和思考,以及它在智慧城市中的應用及未來趨勢,其中很多分享內容將是首次呈現給大家。
我今天的演講主題是《聯邦智能:智慧城市的突圍之道》,它主要分四個部分:第一部分,人工智能中的數據困境;第二部分,突圍之道:聯邦智能重塑數據生態;第三部分,聯邦智能的應用平臺:蜂巢平臺;第四部分,聯邦智能的解決方案:智慧城市。

目前,人工智能在移動互聯網、云計算、大數據、IOT、5G等新技術的驅動下得以迅猛發展, 不過我們發現AI技術在落地時總會欠缺一點火候,那么究竟差在哪里?就是人工智能通用算法在本地化部署過程中所面臨的數據難題,而這一塊恰恰是相關技術行業或技術企業所缺乏的。
對于傳統行業來說,數據作為核心的資產,各行各業都會存在數據壁壘問題,共享數據變得比較困難,阻礙了AI落地。如何來突破這一難題,讓AI生態能夠繼續保持著高速發展的態勢,是現在所有AI人迫切需要解決的問題。
以智慧城市為例,自2012年住建部正式對智慧城市啟動試點、進行方案改革以來,智慧城市的發展步伐顯著加快,而數據化被認為是智慧城市的基礎。
理想化的圖景是這樣的:人們會通過政府部門、社會組織和企業的互聯互通,實現數據分析和數據決策,但是實際的互聯互通往往遭遇行政和商業壁壘,形成數據孤島。這個難題,長期阻礙著智慧城市建設的進程。

同時,國內在數據隱私保護方面的法律法規日益完善,像《中華人民共和國民法總則》明確指出,規定網絡運營者不得泄露、篡改、毀壞其收集的個人信息。
從2020年的最新文件也可以看到,像《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》首次將“數據”與土地、勞動力、資本、技術等傳統要素并列為要素之一,提出要加強數據資源整合和安全保護,制定數據隱私保護制度和安全審查制度。這將進一步加強數據隱私的安全保護。

而另一方面,我們也可以從傳統AI的技術模式上發現一些限制或者瓶頸。實際上,傳統AI技術模式中的模型算法必須從大數據中挖掘數據特征,需要利用數學理論映射出數據特征與業務需求的關系,并且訓練網絡中權重和偏置的調整與數據量級、數據信息密度、數據來源是否真實有著密切關系。
因此,在這種傳統AI技術模式的限制下,技術本身對數據有著強依賴關系,對企業和個人產生嚴重影響。對個人來說是同樣的,在目前政策約束下,個人相關數據也會受到嚴格監管,這使得個人幾乎無法參與到AI產品的迭代中,用戶不能從他們的設備、位置等方面收集個人數據來完成功能優化。
那么,如何打破數據孤島這一困境呢?

我們因此提出聯邦智能,聯邦智能是以聯邦學習為龍頭,同時涵蓋聯邦數據部落、聯邦推理、聯邦激勵機制,共由四大部分組成。面對目前日益苛刻的數據安全隱私的問題,我們通過構建聯邦學習的技術內核,建立聯邦數據部落,實現具備隱私保護的聯邦推理,并以聯邦激勵機制為紐帶形成一個完整的AI生態格局。這也是目前我們重點推動、落實的核心工作。

這里展示的是聯邦智能的架構關系圖。首先,我將對聯邦數據部落做簡要介紹。
由于業界存在諸多與數據存儲相關的表現形式,如:云存儲、數據湖、數據海、數據倉庫等。那么我們在這里為什么會提出數據部落?
實際上,每個數據可以定義為單位個體,它們之間相互獨立,但信息元素又相通,具有合作的關聯屬性,因此我們將這些數據單元的集合,稱之為聯邦數據部落。
在部落中,既有來自各行業、企業的數據,又有來自各種邊端、設備的數據。
我們的初衷,是希望部落之間能夠達成數據不出本地的一種合作機制。大家能夠把數據貢獻出來,共同去完成聯邦建模。在這一過程中,會包括數據處理、樣本對齊,以及一些特征信息的聚合等內容。
在聯邦學習這一聯合建模的過程中,機器學習、深度學習均有參與,我們也集成有自動化聯邦學習AutoFL模塊,它本質上是在滿足提升本地模型精度的同時,通過本地模型的搜索,更新神經網絡結構,從而自動地趨于滿足本地計算資源和通信能力的最優網絡結構。
接著,聯邦數據部落中的數據信息,會以中間參數的加密形態計入聯邦學習過程,最終實現聯合建模,生成聯邦模型。這一模型會反哺各行各業,包括智慧城市、智慧醫療等各種場景。
實際上,我們的聯邦模型還能提供聯邦推理這一服務應用。其中,聯邦推理是基于加密方式完成推理計算的,這一過程無需上傳任何相關設備存儲的明文數據,或是個人隱私數據,從而保證了數據的安全和隱私性。
整個系統融有聯邦激勵機制。我們設計激勵機制的初衷,是希望這一機制能夠保證各參與方既能積極地貢獻和參與,又能以此激勵在這一生態中的各個參與方受益,從而更好地促進聯邦智能生態向著繁榮方向發展。

下面我將展開來講。聯邦學習,是一種加密的分布式機器學習技術,本質上它是基于本地數據的本地訓練,云端會發布相應的初始模型,并聯合各方由本地發起訓練,共同完成模型構建過程。
提到聯邦學習的優勢,大致可分為四點:
第一點是數據本地化,數據不會泄露到外部,滿足用戶隱私保護和安全的需求。
第二點是算力下沉,有助于物聯網、邊緣計算與人工智能的有機結合。
第三點是聯合建模過程以加解密機制實時進行參數交換,符合政策法規。
第四點是參與各方的身份和地位相同,成功實現了共同富裕的目標。

我重點講一下聯邦數據部落。我們提到的聯邦數據部落,是要把每一個數據孤島部落化,以此納入聯邦智能生態中來。
對于整個數據部落來說,例如個人手機數據、IoT數據、醫療數據等,這些原始數據實際上互不相通,沒有任何數據流轉通道。
其中,我們會對各方間的數據獲取渠道進行加鎖設置。當數據合作方加入到部落中后,我們會進行一些必要工作。
首先會提供一些相關的標準化工具,在原始不交換的基礎上,對來自個人或企業終端的本地數據進行處理,比如針對缺失數據、重復數據、偏離數據的數據清洗、數據降噪等工作。
實際上,我們的目標是在大家達成協議的基礎上,能夠選擇聯合終端中的高質量數據進行去中心化的本地訓練。
接著,為了使用與某項業務場景相關的數據,我們會進行特征化處理,包括數據分類、特征標記、數據聚合等方式,使其有針對性的發起訓練。
最后,我們會對聯邦數據部落中的數據進行質量評估,這也是聯邦激勵機制評價的重要一環。
我們搭建的聯邦數據部落,會依據數據量級、數據有效性、數據信息密度、數據真實性等評價指標,對參與聯邦學習訓練的數據進行質量評估,同時也起到了數據監測與評估量化的作用。

聯邦推理方面,我們希望模型在應用環節也能起到保護數據隱私的作用。
以聲紋識別為例,它屬于生物特征的一種,并在一定程度上是極其重要的個人隱私信息。聲紋語音特征具有抗時變性,短期內它不會隨著年齡的增長而發改變。
在傳統的聲紋推理模式中,服務會將用戶端輸入的語音直接傳送至云端的聲紋平臺與引擎中,經過前置的語音預處理,如靜音消除、截幅檢測等,由i-Vector/d-Vector/x-Vector聲紋模型提取出高維的特征向量,再根據PLDA打分與兩兩比對,最終完成說話人身份確認。
比較典型的應用包括:聲紋門禁、聲紋鎖、電話平臺聲紋核身。另外,還包括1:N情況下的聲紋識別,即說話人辨別。
以上是以聲紋為例的傳統推理過程。
如果我們不上傳本地語音數據將如何實現這一推理過程?
實際上,我們會在本地用戶端內置一個自主開發的蜂巢系統插件,它會在保留原始聲紋信息的基礎上,利用混沌算法對語音信號進行加密,并形成類似白噪聲的密文流信號。
在經過一系列處理后,插件會生成公鑰,并連同處理語音一同傳送至云端。這個公鑰的作用是什么?是為了確保在云端推理過程中數據始終保持隱私性。
最后,我們會將推理加密結果返回至邊端,由邊端解密后直接獲取到真實結果。
整個推理過程,是一個隱私與安全的鏈路過程,我們的原始語音與信息始終沒有泄露。

聯邦激勵機制方面,它的核心是一個遵循基本準則的「閉環」學習機制,通過聯合建模協議達成、企業貢獻度評估、依據貢獻度劃定激勵資金池、企業激勵收益及業務場景獲益、吸引外部企業加入、更新聯邦智能生態,再回歸到聯合建模的協議達成,最終形成一種有效地閉環激勵模式。
在激勵過程中,我們首先會利用特征工程評判數據質量,比如飽和度、稀疏性、相似度等來綜合衡量數據集特征,這里我們也會引入AutoFL進行自動化評估,綜合輸出參與方數據的平均質量向量。
其中,當其質量小于閾值界限會被剔除激勵考量的行列。在此基礎上,從聯邦費用總額中確定激勵資金池的深度。
接著,我們采用聯邦邊際效用評判各個參與方的數據貢獻,然后各個參與方根據占比進行分成。同時,我們考慮到參與方在訓練中產生的計算和通信消耗產生的第二成本,建立了最低保障機制。
在這個機制里,我們評判這個第二成本和激勵分成,選取最優的那個作為最終的激勵。

下面,我將分享一下我們自主研發的聯邦智能平臺——蜂巢聯邦智能平臺。
在整個平臺中,蜂巢依托平安集團這一綜合性集團背景,能夠提供智慧金融、智慧城市、智慧醫療商用級的一站式解決方案,希望能夠以此激活數據價值,這也是我們整個平臺的使命。
平臺是構建圍繞聯邦學習、聯邦數據部落、聯邦推理、聯邦激勵機制為核心的聯邦智能生態。產品適用范圍包括像訓練隱私、敏感數據,同時借鑒了我們之前在自動化機器學習上的一些經驗,在底層進行加速,包括在底層通訊層的優化等等,也包括現在我們在加解密這一塊的嘗試,希望這個平臺能同時滿足B端和C端的需求。

這是蜂巢聯邦智能平臺的設計架構。在聯邦數據部落里面,包括數據預處理、數據特征化、數據質量評估等,這些我們在技術上都做了一些實現。
平臺支持傳統的機器學習以及深度學習模型,比如邏輯回歸、線性回歸、樹模型等,以及包括前面提到的AutoFL技術底座。
在整個模型訓練過程中,我們會對梯度進行非對稱加密,整合梯度和參數優化、更新模型。
在推理這一塊,我們會把原始的傳輸的數據進行加密,最終實現推理結果。
而加密方式中,我們涵蓋同態加密、差分隱私以及國密SM2&4等多種加密方式。

整個蜂巢聯邦學習平臺,從2018年開始,由研發到投產至今已經有兩年多的時間,我們的產品定位是服務于營銷、獲客、定價、風控、智慧城市和智慧醫療。同時,整個團隊在聯邦智能技術上也有諸多包括專利、論文在內的科研成果,以及最新評選上的國家級獎項。
最后一部分,我將針對智慧城市分享一下“聯邦智能+”會帶來怎樣的解決方案,這部分我們也做了大量的工作,沉淀出很多思考和經驗。
智慧樓宇。在《關于促進智慧城市健康發展的指導意見》中,智能樓宇被定位成國家智慧城市戰略方針的重要核心。在該場景下,聯邦智能可以提供怎樣的解決方案?

在智慧樓宇場景中,有些特定區域往往存在危險隱患,從而使得危險預報檢測十分關鍵。如辦公區域禁止火源,樓宇施工過程需要安全帽防護,化工研究場所需要穿著防護服等等。
針對目標識別問題,可采用訓練參數更少、計算量更小的SlimYOLOv3作為對象檢測模型,面向不同識別對象的防控模型可統一封裝成引擎調用,用于實時監測與識別預警。
為了共同提升模型性能,打破各樓宇間數據孤島的問題,有相同需求的各個樓宇可加入聯邦智能——蜂巢平臺中進行聯合訓練,依靠彼此多維度的數據特征進行訓練和模型提升,從而推進智慧樓宇建設進程。

這張流程圖我們可以看到,當合作方將自己的數據集計入聯邦數據部落后,會加入蜂巢平臺的蜂巢模型層,開始進入聯邦學習過程。
接下來,通過蜂巢平臺提供的加密算法加密所傳輸的模型信息,傳輸到聯邦服務平臺的核心算法部分—聯邦建模,聚合發生后產生更新的模型信息,并向參與方反饋模型更新參數。
此外,鏈路中涵蓋前面所提到的激勵機制,目的是吸引、鼓勵更多的合作方加入到聯邦學習的生態中。

智慧金融。智能金融可以說是智慧城市中的一個門類,舉個例子,銀保監會和證監會的數據是絕對不能打通的。所以對于傳統的數據,如圖左邊所示,比如出本地聯合建模,這種方式可以在實驗環境做一做,但在真實數據上,這種方法行不通,因為政策法規是不允許的。我們用聯邦學習建模方式做了對比實驗,發現聯邦學習可以提升模型效果。

車聯網。在智慧城市的車聯網場景下,汽車行駛記錄會保存在不同的系統中,比如車聯網運營方、車企、交管局、車輛相關的個人APP等,包括行車路況、車險記錄、導航記錄等。
假設為了更精準的預測行駛過程中的路況信息,以及滿足市場二手車交易中的信用評級需求,各車企鼓勵用戶將本地行車數據上傳到企業提供的云端,每個車企根據用戶提供的數據,為不同系列的車輛訓練不同的模型。
在聯邦智能生態中,車企之間可進行聯合訓練,以提高模型評估效果。每個合作方會向聚合服務器提供本地模型參數與初始配置信息,聚合服務器會向參與方發送更新后的模型。
由于各參與方數據和模型量級可能存在差異,為了避免負載分配不均衡的情況,聚合服務器可實現服務器與參與方之間的負載分發平衡。
此外,本方案允許參與方同時訓練多個模型,因此會提供任務管理服務,協調車企之間的并發響應機制。因此,車聯網下的聯邦學習解決方案可以有效提升車聯網投產落地速度,減少迭代周期。

聯邦機器人。我們目前已經研發有全球首臺聯邦智能機器人。我們以聯邦學習的方式,在數據不共享的情況下,定期結合銀行本地的相關的客戶數據、客戶信息,發起一些增量的訓練,提升模型應用效果,比如個性化推薦、精準導航等等。同理,由銀行場景延伸,在保險行業、智能家居等場景下同樣適用。

最后,在智慧城市+聯邦智能方面,聯邦智能作為樞紐,將會為智慧安防的未來提供更多新的機會。
像食品安全、藥品、防疫等方方面面,是需要通過聯邦將數據孤島進行有效“連通”,這里指的“連通”即是通過技術手段實現的互通。
同時,隨著公民的隱私安全意識的加深,為了更好地為公眾帶來高品質的個性化服務,且服務標準、規范,改變粗放式服務模式,聯邦智能可以在規避隱私安全問題的紅線,同時助力智慧城市建設與數據應用間的平衡,提升諸如個性化推薦等服務質量。
同時,我們的目標是能夠實現精細化的智慧城市發展,在當前新基建的背景下,立足于數據,依托聯邦智能生態,加速精細化服務時代的到來,這也是聯邦智能的機會!
謝謝大家!雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。