1.2毫秒！英偉達TensorRT 8運行BERT-Large推理創紀錄

本文作者：吳優

2021-07-21 15:41

導語：對話式AI的福音。

自今年5月份TensorRT 8-EA版（Early Access，嘗鮮版）發布之后，英偉達終于在本周二發布了TensorRT 8的正式版。

作為支持英偉達GPU平臺的深度學習推理框架，TensorRT 8正式版與以往的版本相比，能夠在在1.2毫秒內運行全球最廣為采用的基于transforemer模型之一——BERT-Large，即將語言查詢推理時間縮短至上一個版本的一半，創下最新記錄，為搜索引擎、廣告推薦和聊天機器人的AI模型提供支持。

英偉達官方聲稱，TensorRT8不僅針對transformer作出突破性優化，還新增其他兩項關鍵特性，實現AI推理方面的突破。

推理時間縮短至1.2毫秒，速度提升1倍

“AI模型以指數級的速度增長，很多公司不得不縮減模型大小以追求響應速度。英偉達2016年推出的TensorRT可以幫助這些企業擴大規模，提升精度。” 英偉達AI軟件部的產品管理總監Kari Briski回顧TensorRT推出的背景時說道。

1.2毫秒！英偉達TensorRT 8運行BERT-Large推理創紀錄

TensorRT是英偉達自家的深度學習推理框架，在模型推理的過程中，可以將Pytorch、TensorFlow等其他框架訓練好的模型轉化為TensorRT格式，再使用TensorRT推理引擎運行，從而提升這一模型在GPU上的運行速度。

因此，支持更多的模型和進一步縮短推理時間，提高推理速度是廣大AI軟件開發者對TensorRT升級的普遍期望。

2019年，黃仁勛在GTC China上發布TensorRT 7。相比于只支持30多種模型的TensorRT 5，TensorRT 7能夠支持各種類型的RNN、Transformer和CNN，支持多達1000多種不同類型的計算變換和優化，還能讓推理時間縮短至0.3秒，為此黃仁勛將其稱之為“我們實現的最大飛躍”。

這次更新的TensorRT 8版本，雖然升級“飛躍”程度比不上從5.0版本到7.0版本的升級，但也有一定程度的更新。

英偉達宣稱，TensorRT 8的各項優化為語言帶來了創紀錄的速度，能夠在1.2毫秒內運行全球最廣為采用的基于transforemer模型之一——BERT-Large，幫助企業將模型擴大一倍或兩倍，從而提高精度。

落實到具體的應用上，這種推理速度的提升能夠讓對話式AI更加智能，交互應用程序的性能也能夠得以提升。

新增兩項核心技術，是推理速度提升的關鍵

在此之前，之所以能夠憑借TensorRT提升模型在英偉達GPU上的運行速度，主要得益于TensorRT的一系列優化，這些優化包括：

權重與激活精度校準：通過將模型量化為INT8 來更大限度提升吞吐量，同時保持高精度，力求精度和吞吐量的最大平衡；
層與張量融合：通過融合內核中的節點，優化GPU顯存和帶寬的使用；
內核自動調整：基于目標GPU選擇最佳的數據層和算法；
動態張量顯存：更大限度減少顯存占用，并高效地為張量重復利用內存；
多流執行：并行處理多個輸入流的可擴展設計；

簡單而言，就是在力求以低混合精度提升吞吐量的同時，減少計算和內存訪問，合并網絡層。

1.2毫秒！英偉達TensorRT 8運行BERT-Large推理創紀錄

而在TensorRT 8版本中，英偉達又新加入兩個關鍵特性，以實現AI推理方面的突破。

其一是稀疏性。TensorRT 8中使用稀疏性技術，在保證精度推理的同時，降低深度學習模型中的部分權重，減小模型所需要的帶寬和內存，在提升效率的同時使開發者能夠通過減少計算操作來加速神經網絡。

這項技術能夠幫助NVIDIA Ampere架構GPU得到性能上的提升。

其二是量化感知訓練。開發者能夠使用訓練好的模型，以 INT8 精度運行推理，且不會造成精度損失，大大減少計算和存儲成本，在Tensor Core核心上實現高效推理。

TensorRT誕生第五年，下載次數近250萬次

推理模型上的速度優勢讓TensorRT廣受歡迎。五年來，已有來自醫療、汽車、金融和零售等各個領域的27500家企業，超過25萬名開發者下載使用TensorRT，累計次數近250萬次。

1.2毫秒！英偉達TensorRT 8運行BERT-Large推理創紀錄

GE醫療是TensorRT的使用者之一，他們用TensorRT助力加速早期檢測疾病的關鍵工具——超聲波計算機視覺創新，使臨床醫生能夠通過其職能醫療解決方案提供方最高質量的護理。

GE醫療心血管超聲首席工程師Erik Steen表示:“臨床醫生需要花費寶貴的時間來選擇和評估超聲圖像。在Vivid Patient Care Elevated Release項目的研發過程中，我們希望通過在Vivid E95掃描儀上實施自動心臟視圖檢測，使這一過程變得更加高效。心臟視圖識別算法將選擇合適的圖像來分析心壁運動。TensorRT憑借其實時推理能力，提高了視圖檢測算法的性能，同時縮短了我們研發項目的產品上市時間。”

開源AI技術的領導者Hugging Face也在同英偉達展開密切合作，其產品總監Jeff Boudier表示，通過TensorRT 8，Hugging Face在BERT上實現了1毫秒的推理延遲，十分期待能在今年晚些時候為客戶提供這一性能。

目前，TensorRT 8已經全面上市，且面向英偉達計劃開發者成員免費提供，用戶能夠從TensoRT GitHub庫中獲得最新版本插件、解析器和樣本開放源代碼。

雷鋒網雷鋒網雷鋒網

TensorFlow Lattice：靈活、可控、可解釋的機器學習

谷歌發布TensorFlow，用于測試人工智能模型的隱私保護

Google用AI設計AI芯片，不到24小時就能設計出Tensor處理單元

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。