佐治亞理工學院發文：不要迷信可解釋性，小心被誤導

本文作者：我在思考中

2021-10-25 10:47

導語：可解釋性陷阱通過故意設置“陷阱（pitfalls)”也可以變成具有刻意欺騙性質的黑暗模式。

編譯 | 王曄

校對 | 琰琰

可解釋性對人工智能發展來說至關重要，但在可解釋系統的可信度方面，理解其可能帶來的負面效應亦同等重要。

近日，佐治亞理工學院研究團隊發表最新研究，重點討論了可解釋人工智能系統（XAI）中一種重要卻未被闡明的負面效應。

論文地址：https://arxiv.org/pdf/2109.12480.pdf

在這篇論文中，作者提出“可解釋性陷阱（EPs）”的概念，指出即使設計者最初沒有操控用戶的意圖，模型的可解釋性也可能帶來意料之外的負面影響，它不同于具有刻意欺騙性質的黑暗模式（DPs)，但又與之相關。本文通過一項案例研究具體闡述了Eps概念，并證實解釋的負面影響不可避免，最后作者進一步從研究、設計和組織三個層面提出了具體的應對策略。

1

可解釋性的“兩面性”

發展可解釋、可信的新一代人工智能越來越重要，因為人工智能已被廣泛應用于醫療保健、金融、刑事司法等高風險決策領域。為了提高人工智能的安全性，我們需要打開AI內部運作的黑匣子，為用戶提供可理解的解釋。

目前關于可解釋AI（XAI）的研究已經取得了令人稱贊的進展，但最新研究發現，這些解釋所帶來的的影響不一定是積極的，也可能在下游任務中產生消極影響。例如設模型計者故意制造不合理的解釋，讓人們對人工智能系統產生信任，從而隱瞞其可能帶來的風險。更重要的是，盡管模型設計的最初意圖是好的，這種負面影響似乎也不可避免。

在這種情況下，我們要如何區分有意和無意的負面解釋？又如何將有意的負面效應概念化？

佐治亞理工學院發文：不要迷信可解釋性，小心被誤導

作者引入“可解釋性陷阱（Explainability pitfalls ，EPs）”的概念，指出人工智能解釋可能會誤導用戶在不知情、無防備的情況下做出符合第三方利益的決策。用戶對人工智能的信任，能力的高估，以及對某些解釋的過度依賴，是他們在無意識中被“可解釋性”操控的主要原因。

EPs和DPs之間的最大區別在于“意圖”不同——DPs存在故意欺騙的性質，不考慮到用戶的利益。但EPs通過故意設置“陷阱（pitfalls)”也可以變成黑暗模式。

EPs的概念并不是純粹的理論推導后的結果，而是在大量實際工作和經驗的基礎上提出的。這項工作展示了盡管沒有欺騙的意圖，但在人工智能解釋的確會出現意料之外的負面影響.

本文不是一篇關于EPs的全面論述，而是在現有概念和實踐上邁出了基礎性的一步。作者表示，提出可解釋性陷阱的概念，是為了讓人們認識到未曾發掘的知識盲點（圍繞人工智能解釋的負面影響），并以此擴大XAI系統的設計空間。

2

多智能的“解釋陷阱”

在這項研究中，作者調查了兩個不同的群體——有人工智能背景和沒有人工智能背景的人，他們如何看待不同類型的人工智能解釋。以下是用戶對AI生成的三種解釋的看法：

(1)有正當理由的自然語言

(2)沒有正當理由的自然語言

(3)為智能體行為提供無語境下的數字

在這項研究中，參與者觀看了三個智能體在連續決策環境中的導航視頻，并提供了定性和定量的感知信息——在一個滿是滾動的巨石和流動的熔巖的環境中，為被困的探險者取回必須供應的食物。

智能體通過簡單地輸出當前狀態的數字Q值執行 "思考"過程（如圖1）。Q值代表智能體對每個行動的信任程度(不包含 "為什么"可信)，參與者事前沒有被告知這些Q值的意義，所以他們不知道哪些數值對應哪些行動。

佐治亞理工學院發文：不要迷信可解釋性，小心被誤導

圖1：顯示了智能體在任務環境中導航

實驗發現，兩類參與者都對數字盲目信任，但信任的程度和原因不同。作者采用"認知啟發"的概念，試圖理解背后的原因。他們發現，

對于有人工智能背景的參與者來說，僅僅是出現的數字就能引發啟發式思考。他們不完全理解智能體決策背后的邏輯，但也會將數學表示法與邏輯算法的思維過程聯系起來。有意思的是，他們還把最聰明的AI投給了“行為最奇怪”的智能體，這說明，他們不僅過度重視數字結果，而且將“含義不明”的數字視為潛在的可操作性。這里的"可操作性"指的是在判斷或預測未來行為方面，人們可以用這些信息做什么。

那么，智能體在實際場景中的可操作性到底如何？正如之前所強調的，Q值不能表明決策背后的 "原因"。除了評估現有行動的質量，這些數字并沒有太多可操作性。也就是說，參與者對智能體產生了過度信任和錯位評估。

對于沒有人工智能背景的參與者來說，即使無法理解復雜的數字也會引發啟發式推理，在他們看來，智能體就一定是智能的，這些數字代表了智能體“神秘而不可理解”的獨特語言。需要說明的是，這種推理方式與之前有人工智能背景的人的推理過程不同，他們假設了未來的可操作性（盡管目前缺乏可理解性）。

如我們所看到的，沒有標記的、無法理解的數字反而增加了兩類群體對智能體的信任和評估。這項案例研究表明，即使沒有欺騙的意圖，EPs也會出現未曾預料到的結果，并誤導參與者對數字生成過度依賴。

需要強調的是，本次案例假設Q值的“本意”是好的，如果這些數字被操縱了，一些人利用這些隱患惡意設計黑暗模式，鑒于案例中用戶對數字的啟發式信任，這將會誤導更多人對系統產生過度信任和不正確認知。

3

有何規避策略？

總結來看，可解釋性陷阱（EPs）有兩個特性，一是它僅是存在，但并不一定會對下游產生危害；二是現有知識不能預測給定的一個人工智能解釋何時、如何以及為何會引發意料之外的負面下游效應。

基于以上兩點，作者認為雖然我們不太可能完全消除解釋的負面效應，但需要意識到“陷阱”的存在，了解它們何時容易出現，又是如何運作的，并制定相應的措施，做到防微杜漸。文中作者從研究、設計和組織三個相互關聯的層面提出了幾點策略：

在研究層面，開展更多以人為本的情境和經驗性研究，以獲得不同解釋對不同利益相關者在多維度下的精細理解。這是因為當下游效應（如用戶對人工智能解釋的看法）表現出來時，陷阱就會表顯露并被識別。如上述案例，具有不同人工智能背景的用戶引發了同樣的陷阱（即，對數字過度信任），但卻有不同的啟發模式。

其實，基于這則案例，我們還可以從用戶知識背景和理解分歧兩個維度進一步探討：用戶的組合特征（如教育背景和專業背景）如何影響 EPs的易感性？不同的啟發式方法如何發現不利影響？不同的用戶如何適應意料之外的解釋？在這些探索中，具備陷阱意識可以幫助我們提高洞察力，發現人們對人工智能解釋的反應是如何與設計者的意圖相背離的。

在設計層面上，一個有效的策略是強化用戶在解釋過程中的反思（而不是一味地接受）。最近以人為本的XAI工作也主張將通過反思來促進信任的方法概念化。Langer等人指出，如果我們不對解釋進行有意識的和慎重的思考，就會增加掉進“陷阱”的可能。為了引發人們的注意，Langer等人建議設計 "努力的反應 "或 "有思想的反應"，它可以采用縫合設計的視角來幫助提高注意力。有縫設計是對計算系統中 "無縫 "概念的補充，其概念根源在于普適計算。接縫的概念與XAI非常吻合，這是由于：(a)人工智能系統被部署seamful spaces空間中；(b)該方法可以被看作是對“seamless”的黑暗模式人工智能決策的回應，具有“zero friction”或理解力。

就形式和功能而言，seams戰略性地揭示了不同部分之間的復雜性和連接機制，同時隱藏了分散注意力的元素。這種 "戰略性揭示和隱藏（strategic revealing and concealment)的概念是seamful design的核心，因為它將形式和功能聯系起來，而對這種聯系的理解可以促進反思性思維。因此，Seamful explanations戰略性地揭示了系統的缺陷和承受力，并掩蓋了那些分散注意力的信息，對它們的認識可以促進有用的反思。

在組織層面上，為設計者和終端用戶引入教育（培訓）計劃。搭建一個生態系統是很重要的，因為EPs具有社會維度的復雜性，我們需要一種超越技術層面的策略。近期工作表明，對黑暗模式的掃盲可以促進自我反思和減輕危害。EPs掃盲計劃可以制定如下：(a)幫助設計者意識到EPs可能出現的表現；(b)讓終端用戶提高識別“陷阱”的能力。

總的來說，這些策略有助于我們用積極地預防EPs，促進對陷阱的復原力。雖然不夠詳盡和規范，但它在解決潛在有害問題上邁出了重要的一步。