0
醫療數據價值安全共享,從“兩難”到“兩全”,勢必要擁抱隱私計算
隱私計算是不是花拳繡腿,叫好不叫座?隱私計算如何釋放醫療數據價值?
4月12日-15日,雷峰網《醫健AI掘金志》以《隱私計算,讓AI釋放醫療數據的價值》為話題,邀請了四位隱私計算企業CXO及產品負責人,以線上云峰會的形式,討論隱私計算的技術路線、以及醫療場景下的實際應用前景。
在本次醫療隱私計算云峰會的第三期,螞蟻集團智能平臺產品總監曹劍以《隱私計算技術在醫療行業的方案與實踐》為題,依次分享了自己對醫療領域隱私計算的理解和認知、螞蟻在隱私計算領域的產品架構、隱私計算如何服務醫療行業等三個方面。
此次的分享嘉賓曹劍,長期從事螞蟻數字科技的相關工作,包括隱私計算、知識圖譜、深度學習平臺等。
他表示,隱私計算做的是數據價值的融合,而非數據的融合。長期來看,基于隱私計算會構建起一張張數據價值的共享網絡,從而加速數據的合規開放與價值融合。未來,隱私計算技術會成為與通信網絡同樣重要的基礎設施能力。

以下為曹劍的分享內容,雷峰網&《醫健AI掘金志》作了不改變原意的編輯及整理。
從定義上看,隱私計算指的是多方參與且各方“互不信任”的場景下,聚合多方的數據信息,并且在保護數據隱私的前提下,提供的智能計算范式。
“互不信任”要打一個引號,是因為任何公司在做商業合作,或數據共享的過程中,我們默認這是一個“互不信任”的場景。
其中要明確兩點,隱私計算的問題是多方參與、互不信任,目標是聚合多方數據,并保護數據隱私。
簡單說,隱私計算做的是數據價值的融合,而非數據的融合。

那么整個隱私計算的組成是什么?
從螞蟻的視角來說,第一,隱私計算它不是一個單一的技術;第二,它不是一個獨立的應用產品,而應該是一系列技術和場景化產品的有機組成。
下層我們有計算環境的相關技術,比如可信執行環境,安全沙箱,軟件安全保障,做到數據和模型計算環境的可控和安全。
中層是隱私計算所需要的基礎技術,包括去標識計算和脫敏技術,做到“可算不可識”;以及密態計算技術,做到“可用不可見”。
頂層是常見的應用技術,比如聯邦學習,多方安全機器學習,隱私樞紐、多方安全數據分析等。

從前年開始,隱私計算的賽道變得越來越火。尤其是在去年下半年的《數據安全法》,《個人信息保護法》頒布后,國內從事隱私計算領域的同行變得非常多。
為什么隱私計算會出現網絡效應?
在隱私計算的推廣過程中,先是會由一些頭部的機構或者企業建立起一張張獨立的數據價值共享的“局域網”。在網絡發展過程中,不同主體會覺得自己網絡上的數據參與方還不夠,所以網絡和網絡之間要做出進一步的互聯。
比如在醫療行業中,地方衛健委、銀行、政府會構建以自己為核心的數據合作單位網絡。而這些數據價值共享網絡就是基于隱私計算技術,把不同的計算節點部署在合作方中,構建的一張新的隱私計算網絡。
所以在我們可預見的情況下,我們認為隱私計算會成為未來數據價值共享的一個底層通信網絡類型的基礎技術設施。

傳統通信網絡和隱私計算網絡的結構
打個比方,在傳統的通信網絡中,最底層是通信網絡的設備提供商,比如華為、中興,海外的諾基亞思科;
中層有網絡運營商,比如三大運營商和區域運營商華數、歌華;
頂層是內容增值服務商,比如各種互聯網公司,從事電商、社交、娛樂等。
和通信網絡相對應,我們認為隱私計算后續也會走向這樣的產業分層:
最底層是隱私計算的產品技術服務商,比如螞蟻、騰訊、華控等;
中層會有數據網絡的運營商,比如政府部分單位和部門、通信運營商、金融行業征信機構等;
最頂層則會出現基于隱私計算網絡的數據增值服務商,比如保險、助貸、營銷、醫療等數據增值服務商。
總的來說,我們認為未來各行各業會基于隱私計算構建數據價值共享網絡,將更多的內容和服務放在上面,在合規的前提下,釋放越來越多的數據的價值。
螞蟻集團從2015年開始投入到隱私計算相關的研究工作中,至今經過了三個發展階段。
? 2015~2017年屬于技術研發階段。2015年,螞蟻做隱私樞紐,開發了去標識化和脫敏技術;2017年開始做聯邦學習和拆分學習;
? 2017~2019年屬于PoC(Proof of Concept,概念驗證)試點階段。2017年,螞蟻逐步進入到相關業務的PoC試點階段,輸出了基于多方安全計算的同態加密的機器學習等相關技術。
? 2019年之后屬于規模化落地階段,螞蟻集團逐漸服務于與自身業務相關的場景以及后續將螞蟻的技術實踐輸出,對醫療等行業提供服務。

比如此前螞蟻的服務更偏向于數字金融,推出一些相關產品,那么我們就能夠把這種產品發展模式和技術分享給行業伙伴,支持更多的金融機構或數據合作方做多方計算建模。
直到2021年,我們逐漸做一些偏商業化的產品和服務,比如和醫保、衛健和醫院、藥械等相關廠商提供技術場景服務。
具體來看,螞蟻隱私計算智能服務平臺的產品架構分為三層。

最底層是隱私計算節點,客戶既可以部署在可信的IDC機房服務器,也可以部署在可信賴的VPC(Virtual Private Cloud,虛擬私有云)上。
中層是隱私計算服務平臺,包括基礎的節點管理、節點網絡的授權,數據的管理及授權、以及聯合項目的管理機制。
頂層是各種各樣的行業應用解決方案,比如有針對各種場景的多方安全計算、聯邦學習、多方安全統計分析、隱私求交等技術。
螞蟻隱私計算產品的定位是成為未來隱私計算領域的基礎技術設施提供商,所以我們會提供豐富的產品能力和API接口,供保險、銀行、醫療、政府、零售、制造業等領域內的伙伴與客戶使用,而針對不同的用戶,如IT人員、數據管理員、數據開發人員,提供圖形化建模工具降低聯合建模門檻。
此外,針對不同的客戶群體,螞蟻也提供了不同的部署架構。
對于一般客戶,該隱私計算架構部署在本地或云端;對于大客戶,我們提供了一個中心化的公共云管控平臺,方便他們轉至云端。對于一些有部署要求的客戶,該管控平臺也可以部署于本地,方便他們隨時調度。
目前,螞蟻將這一隱私計算服務平臺打造成了一個中心化平臺加分布式計算節點的模式,中心化平臺可提供服務、管控、運維等中心化服務,包括模型開發,模型部署,模型服務監控等。
而螞蟻之所以采用這樣一個中心化的架構平臺,是因為我們發現,當我們的網絡達到一定規模時,如果沒有一個中心化的管控服務平臺,那后續整個網絡的管控、運維和擴展可能會遇到各種各樣的挑戰。
總體來說,不同企業推出的平臺架構會結合自身的發展路徑,從而有所區別。
但坦率來說,隱私計算技術從二十年前興起到現在逐漸落地,還沒有完全成熟。和通信網絡技術相比,隱私計算各平臺之間沒有互聯互通。
盡管目前隱私計算已經具有各種行業標準、國家標準、國際標準,但在具體的項目落地上,每家隱私計算廠商會有自己的一套技術和實踐機制,各平臺之間難以共享技術成果。

目前,螞蟻和洞見等國內領先隱私計算同行在推進隱私計算的互聯互通工作。
比如今年年初IEEE 標準委員會發布并推行的基于可信執行環境的隱私保護機器學習的國際標準(IEEE Std 2830?),是首個基于可信執行環境的隱私保護機器學習技術框架與要求的國際標準,由螞蟻集團聯合國內外知名高校、研究機構共同立項、籌備、制定。
在醫療行業,我們與醫保、醫院、衛健、藥械廠商都有合作,在合作過程中我們發現,隱私計算作為一項新的技術能夠很好地適配醫療行業,為醫療行業的數字化與智能化帶來新的解決問題的辦法。
第一,隱私計算服務于醫療保險理賠。

在保險理賠場景,我們在2018年嘗試了將隱私計算技術應用到具體業務中,和傳統保險理賠方式不同的是,它不再需要保險人員人肉跑各方資源,只需要線上接入一些數據接口,就能查詢到理賠相關的數據,從而判斷是否符合理賠條件。
隱私計算能非常好地實現這一目的,保證數據在不出域的情況下可用。
首先是獲得用戶授權,在已授權的情況下,我們設定一些數據邏輯查詢,比如理賠客戶在投保前是否已獲得某病種診斷、診斷記錄是否和初始投保說明相悖、客戶在過去兩年中是否有相關住院記錄、險種是否超過15天或30天。
第二,隱私計算服務于醫院數字化運營。

在近兩年醫保支付改革的背景下,螞蟻隱私計算平臺和阿里云數字醫療團隊合作,為醫院搭建了面向醫院運營管理的數據融合平臺。
比如利用智能算法(OCR、知識圖譜、文本挖掘LP、DRG分組等),動態規范整個醫護的臨床行為,為管理者提供數字化績效管理分析,幫助醫院建立精細化運營管理體系,減少醫院的經濟風險或臨床風險。
那么隱私計算在其中的作用是什么?
一是基于多家醫院數據構建的聯合模型,解決單一三甲醫院的數據量和數據的豐富程度不充足的問題;二是在跨醫院合作中,保證聯合建模的模型達到調優,保證數據安全可控、可用不可見的前提下,更好地發揮自身價值。
在這一案例向更多醫院服務的過程中,貢獻了兩方面的價值:
一是病理質控。甲級病案例提升了10~20%;
二是DRG管理。2021年三個月時間區間內,阿里云團隊與某三級醫院合作,最終累計優化數十萬結算,并通過編碼入組,將醫保反饋分析工作量顯著降低。
第三,隱私計算服務于衛健臨床附屬決策。

很多基層醫院醫生有能力診斷普通外科和內科疾病,如感冒拉肚子、皮膚輕度創口,但對于部分具有區域性質的疑難雜癥,很多基層醫生和患者容易誤診,致使患者錯過最佳治療時間或引起醫院管理糾紛。
但基層醫院的診斷難題根源于我國的醫療資源不均衡現狀,一是三四線社區和鄉鎮衛生所的病人數量少,二是醫生的臨床診斷能力未必高,醫患之間存在不信任關系。那么病人就會涌向地級市和省會城市看病,暴露出省級城市掛號難、掛號貴的問題。
因此,衛健委提到,不同地區的區/縣衛生所應該先對某一類疑難重病進行初篩,第一時間進行精準定位,再通過和省會大醫院聯手的方式做出更好的診療。
在這個背景下,我們提供了一個方案,基于隱私計算服務的衛健臨床輔助決策。
由衛建牽頭,在每家醫院部署隱私安全計算節點,構建了一個聯合模型,保證三甲醫院相關科室的大量病案數據在原始數據不出域的情況下,通過數據訓練有效提升決策系統的準確率。
最終,經過數據訓練輔助診斷模型不僅能利用大型醫院沉淀下來的數據,也能服務于各三四級地市及社區醫院和鄉鎮衛生所,提高基層醫院的疾病診斷能力。
第四,隱私計算服務于藥械廠商。
國內外領先的制藥和診斷方案廠商也存在隱私計算方面的需求。
第一,他們需要各大醫院的診療設備數據回流,通過回流的數據訓練自己的智能診斷模型。第二,他們希望通過隱私計算深化與醫院的合作,發現自己的設備在診斷過程中的風險,從而提前預警。
目前多數藥械廠商會在各大合作醫院自建隱私計算平臺,并在上面構建相關的診療數據模型。在完成PoC后逐漸去做規模化推廣,被更多的頭部醫院所認可。
總的來說,隱私計算看似是很新穎的技術,但它已經服務于醫保、醫院、衛健委、藥械廠商等,在醫療行業的應用十分廣泛。
在最后的答疑環節,曹劍也針對隱私計算的技術問題和應用問題進行了解答,醫健AI掘金志精選了4個問題。
Q1:隱私計算需要建模嗎?聯合建模對效果的提升顯著嗎?
隱私計算是用大家都會去用到的東西,去做同一個工作,比如用A的數據和B的數據做出比較,看誰比較多,這是最簡單的數學上的比較或者計算。
在更多的場景中,我們可能需要通過建模做數值模擬。比如我和你可能都認識的一個人叫小明,我認為小明有4個標簽,你認為小明有5個標簽,那么我們構建了一個聯合模型去概括小明,最終判斷應該給小明貸多少款,或者判斷小明的健康指數如何。
當然不同的場景不一樣,我們需要基于具體的場景來分析。
那么補充一點是,有不少的客戶說公司能養數據工程師就不錯了,如果去建模的話,還要招聘建模工程師,隱私計算就變得門檻很高。之前我們提到過,我們其實除了提供螞蟻隱私計算的智能服務平臺外,也通過圖形化的方式做了相關的簡化模型,為大家降低了使用門檻。
那么,聯合建模對效果的提升顯著嗎?
目前我們做過很多的實踐,發現基于雙方的數據做聯合建模會比基于單方數據建模的效果好很多。但這不是絕對的,因為我們提供的是一個隱私計算平臺,讓大家都把數據放在里面,但最終的業務效果還是雙方合作的結果。
第一,取決于雙方的數據互補性,第二取決于雙方的數據質量。我個人的觀點是,未來任何一家公司,它的數據的量和數據的維度都是有限的,如果能在合法合規、滿足相關監管要求之下發揮多方數據的價值,一定是未來的趨勢。
Q2:隱私計算、區塊鏈、聯邦學習的區別
一、隱私計算和區塊鏈:
有不少客戶會問這個問題,我的觀點是隱私計算和區塊鏈是兩種維度的不同技術。區塊鏈偏向唯一性和確權,隱私計算偏向為了產生更大的數據價值,所以將雙方的不同數據放在一起進行聯合建模。
目前我所接觸到的各種場景,也許只有在政府的一些數據開放平臺的項目中,會同時用到區塊鏈和隱私計算。但它們解決的是不同的問題。
在更多的場景里,比如目前我們所接觸到的醫療行業場景,隱私計算和區塊鏈沒有在這種小場景中會共同出現。
二、隱私計算和聯邦學習:
隱私計算是一系列的非常成體系的技術和應用產品的組合,我們會把它分為計算環境技術,基礎技術、應用技術。
而聯邦學習在我們看來是上面應用層技術,作用于某些特定場景,所以聯邦學習底層會有很多的技術基礎。
Q3:螞蟻隱私計算服務平臺的不同之處是什么?
我們架構中的每一個隱私計算節點,既可以部署在客戶自己的服務器,也可以部署在公共云上,當然放在阿里云上是最好的。現在也有客戶提到,他們的合作方是在海外,那么這個隱私計算服務平臺也可以部署在海外平臺。
第二個特點是螞蟻隱私計算的平臺架構是一個中心化的智能服務平臺。
IT出身的人會知道,每個計算節點其實是一套軟件,可以部署在機構一、機構二。
但不同機構之間的合作有的是長期,有的未必是長期;同時每家機構都在做自己的軟件節點的升級工作,當不同機構之間的軟件版本不同,運行狀態不同、或者底層資源的消耗情況也不同時,這個聯合項目就會出現問題。
所以從運維層面考量,如果沒有一個中心化的平臺去做管控,很多問題是很難被發現或者及時解決。
第三,我們在公共云上也做了相關整個模型開發的部署和監控等一套服務,做成了一個準SaaS的形式,比較符合很多客戶的需求。因為有些客戶會希望隱私計算能夠按需提供相關服務,而不是傳統的"軟件購買+按年Renew"的方式。所以我們現在既可以為小客戶提供"公共云+按需SaaS"的方式,也可以針對大客戶提供"軟件+訂閱"的方式。
大家也會提到,日志回流時是否會把機構訓練好的模型相關參數泄露給平臺。這個不會的。本身這個隱私計算服務平臺是類似于公共云服務,雙方的相關業務數據是不通過服務平臺的。
當然平臺上會有一些日志數據,但是我們的原則是日志數據“不可碰、不可用”的,和一般的公共云服務的Promise非常類似。
Q4:隱私計算在醫療行業的應用,現在遇到的最大的阻礙是什么?
我覺得現在談不上阻礙,因為這個技術在各行業的應用也就是最近一兩年的時間,才剛剛開始。現在很多不同的角色都在嘗試把隱私計算往實際落地,這是非常好的現象。
如果說阻礙的話,我覺得任何隱私計算都要看具體場景,平常我們會考慮兩個維度。
一,隱私計算中的雙方或多方能否達成數據價值共識;
二,隱私計算的參與方能夠提供高質量、高穩定性的數據。
此外,醫健AI掘金志也上線了曹劍的演講視頻,感興趣的朋友可以關注公眾號 醫健AI掘金志,對話框回復關鍵詞“曹劍”,即可回看!
雷峰網(公眾號:雷峰網)雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。