專訪紐約城市大學田英利教授：用多通道、多模態的方法「看懂」手語

本文作者：任平

2024-03-06 09:48

專題：AI for Science

導語：手語識別技術新篇章，基于RGBD圖像的美國手語語法識別系統。

與聾啞人交流，是一件成本很高的事情。

首先要看得懂手語，其次是會打手語。在全球任何一個國家，手語都被歸屬為一門“小語種”。

但全球手語并非一套通用語言，美國手語（ASL）、泰國手語（ThSL）、英國手語（BSL）、中國手語（CSL）......雖然在某些情況下它們可以互相理解，但這并不等同于手語語言的普遍性。

全球約4.5億的聾啞人士，長期困在狹小社交圈。在過去三年的全球防疫中，這種社交限制被進一步強化。

口罩會影響每一位聾啞人——依賴手語的他們還需要面部表情來充分理解交流內容，佩戴助聽器或人工耳蝸的人也依賴唇讀來更好地理解聽到的內容，即便只是聽說功能受損的人也更難聽到蒙住的聲音。

因此，手語在高等教育中的重要性日益凸顯。從2006年到2009年，美國手語在大學的學習人數顯著增加了16.4%，在最受歡迎的外語學習中排名第四。然而，對于更廣泛的社會群體而言，仍然無法受益于一種靈活的方法培養手語技能。

眾所周知，2023年，ChatGPT的出現為溝通方式帶來了革命性的變革。

ChatGPT通過多輪對話的形式，實現了與人類的協同交互，這是與以往現象級AI產品完全不一樣的地方。比如，通過簡單的插件安裝，用戶便能與ChatGPT展開近乎真實的對話模擬。ChatGPT不僅能夠理解用戶的意圖，還能提供即時的反饋和糾錯。在缺乏外語母語交流伙伴的情況下，ChatGPT是一個理想的替代者，被廣泛用于模擬日常對話、商務會議、求職面試等場景。

實際上，ChatGPT所引領的學習和交流方式的變革并非突如其來。在手語交流輔助工具的開發上，學術界早已取得了顯著成就。

2014年開始，紐約城市大學（CCNY）田英利教授，聯合國際知名手語計算專家--羅切斯特理工大學的Matt Huenerfauth教授，著手開發一個能夠實時識別美國手語中語法錯誤的視覺系統。相關研究成果和手語數據集在2020年亮相計算機視覺領域頂級會議ICPR（模式識別國際會議）。

專訪紐約城市大學田英利教授：用多通道、多模態的方法「看懂」手語

田英利，紐約城市大學教授，IEEE / IAPR / AAIA Fellow

據悉，他們開發的這套是美國手語語法識別系統，旨在實時識別手語并為學習者提供即時反饋。應用價值不僅體現在輔助手語學習上，更在于其能夠無縫集成到計算平臺中--通過檢測手語動作并翻譯成文字或語音，為聽障人士與非聽障人士之間的溝通搭建橋梁，有效消除交流障礙。

近期，相關論文之一《Multi-Modal Multi-Channel American Sign Language Recognition》，作為首期特邀論文上線初創期刊《人工智能與機器人研究國際期刊》（IJAIRR）。借此契機，田英利教授向雷峰網介紹了該系統的開發過程，并詳細介紹了背后的數據集收集工作。

論文鏈接：

https://gairdao.com/doi/10.1142/S2972335324500017

手語識別的難題

相比于類型繁多的口語語言，手語的特別之處在于，這是一種充滿表現力的視覺語言，它通過手勢、面部表情和身體動作的組合來傳達信息。

自20世紀80年代以來，學者們就開始探索手勢識別，而手語識別的研究則稍晚起步，1988年，日本學者Tamura和Kawasaki首次嘗試識別日語手語。

隨著多功能感知、智能人機接口和虛擬現實技術的發展，手語識別研究逐漸受到國際關注。目前，手語識別系統主要分為基于傳感設備（如數據手套和位置跟蹤器）和基于視覺的系統。

相比而言，雖然傳感設備提高了手勢識別的準確度和穩定性，但限制了手勢的自然表達。因此，基于視覺的手勢識別逐漸成為研究的主流。

基于視覺的手語識別通常包括三個步驟：

首先，通過攝像頭或傳感器捕捉手語動作，建立訓練數據集；

其次，利用計算機視覺技術分析和識別手語動作；

最后，通過機器學習算法將識別結果轉化為文字或語音輸出。

然而，第一步中的遮擋、投影和光線變化等因素，使得基于視覺的方法難以精確捕捉手指動作。直到近年來，成本效益高的RGBD相機，如微軟Kinect V2（2013年發布）、英特爾Realsense（2014年發布）和ORBBEC Astra Stereo S（2019年發布）的出現，為捕捉高分辨率RGB視頻、深度圖和實時跟蹤骨骼關節提供了可能，推動了基于RGBD視頻的手語識別研究。

盡管如此，現有的手語識別系統仍存在諸多缺陷。

一些系統僅關注手勢，忽視了面部表情和身體姿勢，限制了其適應性、泛化性和魯棒性；

另一些系統雖然分析了多種姿態，但缺乏深度信息，導致識別率不高；

還有的系統雖然基于RGBD視頻，但只識別有限的手語詞匯。

紐約城市大學的田英利教授指出了兩個原因：現代機器學習方法主要依賴數據驅動，但公開發布的手語數據集規模遠小于其他應用的數據集。其次，手語動作的多樣性和復雜性，也增加了動作捕捉和算法設計的難度。

例如，手部動作的微小變化可能導致完全不同手語的符號表達；即使手勢相同，面部表情的差異也能改變含義；重復的手勢可能增加額外的含義；而照明、背景和相機距離等環境因素也增加了識別的難度。

理想的手語識別系統應能處理所有手語詞匯，滿足使用者的實際需求，并能在復雜環境下實時、準確、可靠地工作，同時面向非特定用戶。盡管手語識別技術尚未成熟，但隨著研究的深入，這一目標正逐步接近現實。

美國手語研究新篇章：數據集與識別技術的協同進步

美國手語（ASL）在全球范圍內具有重要地位，不僅在美國、加拿大等國家廣泛使用，而且與泰國手語、法國手語等有著較高的互通性。在美國，美國手語是一種標準化的手語，不同州之間的差異通常很小。因此，ASL成為了眾多研究團隊的首選研究對象。

田英利教授指出，ASL的表達不僅依賴手勢，還涉及面部表情、頭部和身體動作等非手部信號，這些元素共同構成了ASL的豐富表達。

具體來說，大多數手語手勢都是由手在空間中移動、停頓和改變方向組成的，面部表情在美國手語中最常用于傳達整個句子或短語的情緒信息。例如通過眉毛、眼睛張大的表情來表示疑問；身體動作和手勢的指向也可以用來表達“左邊”或“右邊”這類概念；具有消極語義極性的符號，如NONE或NEVER，往往伴隨著輕微搖頭和鼻子皺紋的消極面部表情出現。

專訪紐約城市大學田英利教授：用多通道、多模態的方法「看懂」手語

2014年以來，田英利教授與羅切斯特理工學院的Matt Huenerfauth教授合作，基于RGBD視頻技術開發了一套創新系統，旨在提高ASL語法元素和語法錯誤的識別準確性。這一系統能夠處理連續ASL視頻中手部手勢與非手部信號之間的復雜關系。

經過數年籌備，他們所開發的這套ASL系統已有突破性進展。據田英利教授介紹，ASL-100-RGBD數據集、ASL-Homework-RGBD數據集、實時手語語法錯誤識別系統，是實現這一進步的關鍵。

ASL-100-RGBD數據集：研究的基石

ASL-100-RGBD數據集由羅切斯特理工學院和紐約市立大學的研究人員共同創建，它包含了100個ASL手勢的彩色和深度視頻（RGBD視頻）。這些視頻由流利的ASL使用者在Kinect V2傳感器前表演，為手語識別算法的開發提供了寶貴的基礎資源。

田英利教授強調，在收集數據時，團隊確保了參與者的多樣性，招募了不同性別、年齡和背景的流利ASL使用者。而且所選擇的100個ASL常用手勢，其中大多數與美國手語語法有關（例如時間、問題、條件等語法元素），而且通常在大學一年級的ASL課程中學習。每個手勢都被詳細地標注，包括開始和結束的時間，以及相關的面部表情和頭部動作。

ASL-Homework-RGBD數據集：教育與研究的橋梁

ASL-Homework-RGBD數據集進一步擴展了研究范圍，它不僅包含了流利手語者的視頻，還涵蓋了正在學習ASL的非流利使用者的表現。

這種多樣性使得研究者能夠對比分析流利與非流利手語者的差異，從而更好地理解學習過程中的變化，改進教學方法，并開發出更精確的手語識別系統。此外，數據集還可以作為CV研究人員設計算法的基準，以檢測視頻中的手語錯誤或評估連續手語識別算法性能。

實時手語語法錯誤識別系統：技術的應用

實時手語語法錯誤識別系統，將ASL-100-RGBD和ASL-Homework-RGBD數據集的研究成果應用于實際教學中。這個系統能夠處理連續的手語視頻，自動識別語法錯誤，并為ASL學習者提供即時反饋。

它利用3D-ResNet網絡獨立識別手語的語法元素，并采用滑動窗口方法檢測不同模態的語法元素的時間邊界，有效識別ASL語法錯誤。

田英利教授提到，使用滑動窗口技術來處理長句子，這是一種在視覺和圖像處理中常見的方法。他們的研究創新之處在于結合了多個模態和多通道的信息，即，手部動作、表情、身體語言以及顏色和深度信息（RGBD信息）來識別語法錯誤，而不是識別每一個字。

也就是說，無需逐字翻譯，而是專注于語法錯誤，包括時間、問題、條件等語法元素。（更多細節可閱讀論文原文，在文章底部參考資料）

測試顯示，這一系統能夠在2分鐘內，為時長1分鐘的ASL視頻生成反饋，這對于手語學習者來說極其寶貴。

更重要的是，ASL-100-RGBD和ASL-Homework-RGBD兩大數據集，均已在Databrary平臺上向授權用戶開放，將為未來更多從事手語研究者提供了必要的訓練和測試數據，推動整個研究領域的發展。

The ASL-100-RGBD database : https://nyu.databrary.org/volume/1062

The ASL-Homework-RGBD dataset ： https://nyu.databrary.org/volume/1249

專訪紐約城市大學田英利教授：用多通道、多模態的方法「看懂」手語

多模態3DCNN框架的概述圖

盡管如此，田英利教授仍然指出了目前數據集和系統的局限。

ASL-100-RGBD數據集所選擇的100個手勢，主要集中在有關手語語法；參與者的人口統計信息可能無法完全代表ASL使用者的多樣性，因為參與者主要是年輕人，他們屬于能流利使用美國手語的一類群體并且都有六年以上使用手語的經驗。對手語使用者來說，主要差別包括“聽力損失程度”、“教育背景”、“美國手語流利程度”。

此外，目前這一系統在ASL-100-RGBD數據集上手語的識別率達到93%的準確率。在不用識別每個單獨手勢前提下，對多個連續手語句子，ASL語法錯誤識別率超過60%，包括識別詞匯錯誤（如缺少適當的面部表情或頭部動作）和時間錯誤（如非手部信號發生的時間與句子結構的開始或結束太遠）。

無論如何，這些研究成果已經為ASL研究和教育技術的進步奠定了堅實的基礎，未來或將出現更多元的解決方案，并推動手語商業化時代到來。

團隊介紹

在美國手語（ASL）研究課題中，跨學科團隊合作發揮著至關重要的作用。

紐約城市大學的田英利教授帶領的研究團隊，包括她的學生 Elahe Vahdani 和 Longlong Jing 、羅切斯特理工大學的 Matt Huenerfauth 教授，以及亨特學院的Elaine Gale教授，共同致力于手語語法系統和算法的研究和開發，以及數據集的設計和收集工作。

Matt Huenerfauth博士，畢業于賓夕法尼亞大學計算機系，專攻計算語言學。自2006年博士畢業以來，他一直專注于手語計算研究，不曾變換研究方向，如今已成為該領域的國際知名專家。

據悉，他曾在紐約城市大學皇后學院任教期間掌握了美國手語，并取得了手語翻譯員證書。目前他在羅切斯特理工學院(RIT) 任教，擔任Golisano計算機與信息科學學院的教授和院長，圍繞聾啞人無障礙技術和手語展開研究。

專訪紐約城市大學田英利教授：用多通道、多模態的方法「看懂」手語

田英利教授、Elahe Vahdani 、Longlong Jing、Matt Huenerfauth 教授、Elaine Gale 教授

田英利教授則擁有扎實的計算機視覺技術背景。她于1990年從天津大學光電工程專業畢業后，加入了馬頌德教授創立和領導的中科院自動化所模式識別國家重點實驗室。在獲得香港中文大學博士學位后，她前往美國卡內基梅隆大學進行博士后研究，師從計算機視覺領域的領軍人物金出武雄。

（有關田英利和金出武雄的故事請點擊：金出武雄和他的中國學生們，計算機視覺五十載風云）

那段時間，她專注于人臉表情自動分析和數據庫開發。2000年前后，人臉表情識別成為美國計算機視覺領域的熱點，田英利的工作為她在IBM T. J. Watson研究中心領導視頻分析團隊奠定了基礎。

2008年，田英利教授回歸學術界，加入紐約城市大學電氣工程系，成為該系十多年來的第一位女性教授。她在那里開創了輔助技術研究方向，致力于利用計算機視覺技術服務于視障、聽障、聾啞和老年人等特殊群體。

田教授表示，她首先關注了盲人，很自然地將研究重點延伸到了手語識別，因為手語包含了表情、行為和手勢，這些都與她之前的研究緊密相關。

此外，田教授還表示，近年來她參與的跨學科研究不斷增加，與同校計算機系的朱志剛教授、同系肖繼忠教授（機器人專家）、亨特學院的Elaine Gale教授等合作。Elaine教授是本次手語課題的關鍵參與者，她是一位后天失聰者，精通唇語，并在手語教育方面有著豐富的經驗。她將這套系統應用于自己的課程中，確保了系統在實際教學中的有效性。

值得一提的是，近兩年OpenAI發布的ChatGPT和Sora，將「大模型」技術推到制高點，不乏有人呼吁推出“手語語法識別通用大模型”。

對此，田教授分析，未來手語領域的研究方向可能會涉及大規模數據集的構建。也就是說，未來的系統開發不僅僅針對一種手語，而是考慮將不同國家的手語數據集整合起來，提取手語的通用特征，然后在特定的手語上進行微調，以提高系統識別的精度和適應性。

但至于實際走向如何，田教授指出有兩大挑戰：

“手語領域缺乏像ChatGPT那樣的大規模數據集，這限制了手語識別模型的通用性和準確性；手語不像某些語言模型，可以通過大規模數據訓練后就能通用，手語在不同國家有著特定的詞匯和表達方式，這使得創建一個通用的手語識別模型變得更加復雜。”

目前田英利教授和團隊所開發的這套系統，并非基于大模型，因為所使用的數據量相對較小，而且他們的手語識別系統是在大模型概念出現之前就開始的。他們正在探索使用自監督學習來利用現有數據學習特征，并將其應用于小數據集上，以提高系統的性能，同時也計劃收集更多的數據來改進手語識別系統。

在手語輔助系統的領域內，仍有許多技術挑戰亟待克服。在這一背景下，田教授團隊開放數據集的做法顯得尤為關鍵。這將促進學術界與工業界的交流合作，也為整個領域的發展注入了新動力。

線上圓桌預告

手語識別技術，作為一種橋梁，連接了聽障人士與社會的溝通，其在醫療輔助和社交互動中展現出巨大的應用潛力。

盡管全球眾多學術和工業團隊長期致力于破解手語識別的復雜挑戰，這一領域仍面臨著一系列未解之題。

手語識別的關鍵難題有哪些？

如何從零開始構建并部署一套高效的手語識別系統？

如今 ChatGPT ，Sora 等大模型對手語識別研究的啟示？

除了計算機視覺（CV）技術，還有哪些技術路徑可以探索？

在國內外，哪些學術團隊和工業團隊在手語識別領域取得了顯著成就？

為了深入探討這些問題，雷峰網(公眾號：雷峰網)將在3月舉辦一場專題研討會，屆時將邀請田英利教授以及手語研究領域的專家學者，共同分享他們的見解和研究成果。這次會議將為手語識別技術的未來發展提供寶貴的交流平臺。

本文作者吳彤長期關注科人工智能、生命科學和科技一線工作者，習慣系統完整記錄科技的每一次進步，歡迎同道微信交流：icedaguniang

參考資料

1，Elahe Vahdani、Longlong Jing、Matt Huenerfauth and Y. Tian, Multi-Modal Multi-Channel American Sign Language Recognition, International Journal of Artificial Intelligence and Robotics Research (IJAIRR), 2023.

2，E. Vahdani, L. Jing, M. Huenerfauth, and Y. Tian, Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos, International Conference on Pattern Recognition (ICPR), 2020.

3，S. Hassan, L. Berke, E. Vahdani, L. Jing, Y. Tian, and M. Huenerfauth, An Isolated-Signing RGBD Dataset of 100 American Sign Language Signs Produced by Fluent ASL Signers, In proceedings of the 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives, May 2020.

4，Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, and Matt Huenerfauth, ASL-Homework-RGBD Dataset: An Annotated Dataset of 45 fluent and non-fluent Signers Performing American Sign Language Homeworks, In proceedings of the 10th Workshop on the Representation and Processing of Sign Languages: Multilingual Sign Language Resources, June 2022.

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。