平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

本文作者：我在思考中

2022-01-24 15:15

導(dǎo)語(yǔ)：大規(guī)模預(yù)訓(xùn)練模型的實(shí)際應(yīng)用情況如何？它們能解決哪些實(shí)際問(wèn)題？還有哪些不足？

作者 | 王磊

整理 | 維克多

編輯 | 青暮

目前，大規(guī)模預(yù)訓(xùn)練模型已經(jīng)在自然語(yǔ)言處理領(lǐng)域取得了巨大的成功。BERT、GPT-3等大規(guī)模預(yù)訓(xùn)練模型被看做是“暴力美學(xué)”的一次勝利，驗(yàn)證了“模型越大，性能越好”的邏輯，業(yè)界也普遍形成了“煉大模型”的競(jìng)賽趨勢(shì)，國(guó)內(nèi)研究機(jī)構(gòu)和企業(yè)也相繼發(fā)布了大規(guī)模預(yù)訓(xùn)練模型，呈現(xiàn)百花齊放、百家爭(zhēng)鳴的發(fā)展格局。

這些模型的實(shí)際應(yīng)用情況如何？它們能解決哪些實(shí)際問(wèn)題？還有哪些不足？

2021年12月，平安科技前沿技術(shù)部門負(fù)責(zé)人王磊在 CNCC 2021“產(chǎn)業(yè)共話：大型預(yù)訓(xùn)練模型的商業(yè)應(yīng)用及技術(shù)發(fā)展方向”論壇上，做了《大規(guī)模預(yù)訓(xùn)練模型金融領(lǐng)域應(yīng)用中面臨的主要問(wèn)題與應(yīng)對(duì)技術(shù)探討》的報(bào)告。在報(bào)告中，他指出了當(dāng)前大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域的“致命”問(wèn)題，針對(duì)這些問(wèn)題提出了平安科技的解決方案。

例如，他認(rèn)為大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域性能達(dá)不到要求的原因可能是：“大規(guī)模預(yù)訓(xùn)練模型的訓(xùn)練語(yǔ)料庫(kù)規(guī)模很大，既包含了該領(lǐng)域的關(guān)鍵信息也包含了其他無(wú)關(guān)信息，使得模型缺少對(duì)關(guān)鍵信息的關(guān)注”，“當(dāng)前大規(guī)模預(yù)訓(xùn)練模型的機(jī)制改進(jìn)也也很少涉及對(duì)關(guān)鍵信息的提取”。

基于此，王磊認(rèn)為，大規(guī)模預(yù)訓(xùn)練模型本質(zhì)上都是在處理信號(hào)，但只要是信號(hào)，就可能進(jìn)行分解，將背景信息和垂直領(lǐng)域的信息分離開(kāi)來(lái)，從而有效貼合下游場(chǎng)景。

另外，金融客戶對(duì)上線模型的精度要求很高，不少場(chǎng)景直接使用預(yù)加載模型往往很難滿足需求。王磊提出置信度評(píng)估方法，利用強(qiáng)化學(xué)習(xí)和Bagging思想評(píng)估模型靠譜程度。

以下是演講全文，AI科技評(píng)論做了不改變?cè)獾恼怼?/span>

本次分享的主題是《大規(guī)模預(yù)訓(xùn)練模型金融領(lǐng)域應(yīng)用中面臨的主要問(wèn)題與應(yīng)對(duì)技術(shù)探討》，主要以中國(guó)平安為案例，從問(wèn)題背景、語(yǔ)義空間分解技術(shù)、置信度評(píng)估方法以及應(yīng)用等幾個(gè)方面介紹。

問(wèn)題背景

在平安公司場(chǎng)景下，大規(guī)模預(yù)訓(xùn)練模型在金融業(yè)務(wù)上的應(yīng)用主要集中在貸款風(fēng)控與股市投資。同時(shí)，這兩個(gè)領(lǐng)域近些年的建模在因子層面會(huì)比較依賴大數(shù)據(jù)，例如文本信息，使用預(yù)訓(xùn)練模型進(jìn)行處理能夠形成一些特征因子，從而方便分析理解。

大規(guī)模預(yù)訓(xùn)練模型已經(jīng)在幾十個(gè)任務(wù)上刷榜，在醫(yī)療領(lǐng)域的表現(xiàn)更是令人瞠目結(jié)舌。但是深入到金融領(lǐng)域，其性能仍然無(wú)法滿足要求。以選股為例，傳統(tǒng)方法在信息獲取階段會(huì)人工從研報(bào)、雪球、知乎等論壇找尋一家公司的信息以及風(fēng)評(píng)，然后結(jié)合基金經(jīng)理或投資人自己的判斷獲得對(duì)這家公司的洞察，從而決定是否買進(jìn)。

由于金融領(lǐng)域的容錯(cuò)性特別低，而且要求模型對(duì)專業(yè)知識(shí)有很深的理解。如果達(dá)不到一定的理解水平，從業(yè)者寧可不用AI模型。

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

一般而言，對(duì)于單任務(wù)，一個(gè)模型的性能能達(dá)到90%，但如果需要理解一段話或者一段專業(yè)評(píng)語(yǔ)，則需要三層模型才能形成一定的特征，這時(shí)模型性能就會(huì)下降為70%左右的水平。因此，在投資等要求嚴(yán)格的場(chǎng)景下，預(yù)訓(xùn)練模型很難應(yīng)用。

為什么會(huì)出現(xiàn)這種問(wèn)題？個(gè)人認(rèn)為，大規(guī)模預(yù)訓(xùn)練模型的語(yǔ)料庫(kù)是大型文本，它注重廣度和背景，對(duì)于深度和細(xì)節(jié)較少關(guān)注。

以國(guó)內(nèi)企業(yè)研發(fā)的一些預(yù)訓(xùn)練模型為例，其早期改進(jìn)的方式都集中在Mask層面，而Msak機(jī)制更傾向于集中學(xué)習(xí)信息的廣度。而當(dāng)模型應(yīng)用到法律、醫(yī)學(xué)等領(lǐng)域時(shí)，更需要的是“深度”理解。

如何解決？目前有很多思路，例如加入專家知識(shí)，知識(shí)增強(qiáng)、混合訓(xùn)練等等。目前，中國(guó)平安在探索語(yǔ)義空間分解技術(shù)和置信度評(píng)估方法。

語(yǔ)義空間分解技術(shù)

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

大規(guī)模預(yù)訓(xùn)練模型涵蓋了很多背景信息，那么能否進(jìn)行再一次的分解，將背景信息和垂直領(lǐng)域的知識(shí)體系分離開(kāi)來(lái)？分解不能沒(méi)有標(biāo)準(zhǔn)和依據(jù)，而大規(guī)模語(yǔ)言模型實(shí)際上是在處理信號(hào)，當(dāng)模型理解信號(hào)的時(shí)候，雖然信息和語(yǔ)義仍然在，但卻在中間發(fā)生了各種形式的變換。因此，無(wú)論是哪種大模型，其本質(zhì)都是將信息或語(yǔ)義重新轉(zhuǎn)述為信號(hào)。

那么，既然是信號(hào)，就能夠進(jìn)行分解。我們已經(jīng)嘗試了多種方式，其中一種做法是：基于國(guó)內(nèi)機(jī)構(gòu)提出的大規(guī)模預(yù)訓(xùn)練模型，加入高中低濾波器，然后用自適應(yīng)頻譜機(jī)制進(jìn)行處理，可以理解為一個(gè)Attention機(jī)制，最后進(jìn)入下游任務(wù)訓(xùn)練。

經(jīng)過(guò)實(shí)驗(yàn)表明，我們提出的頻譜分解網(wǎng)絡(luò)結(jié)構(gòu)（Filter-Loss和Filter-layer ），結(jié)合經(jīng)典語(yǔ)言模型訓(xùn)練神經(jīng)網(wǎng)絡(luò)，在各類型任務(wù)中均可顯著提升語(yǔ)言模型能力。

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

更為具體，不僅是在垂直領(lǐng)域，改進(jìn)后的語(yǔ)言模型在11個(gè)國(guó)際公開(kāi)數(shù)據(jù)集上測(cè)試結(jié)果較BERT模型提升3-20%。這也證明，將語(yǔ)義空間進(jìn)行分離，然后和下游任務(wù)結(jié)合的做法具有通用性。

置信度評(píng)估方法

在金融領(lǐng)域，無(wú)論模型達(dá)到什么樣的水準(zhǔn)，其上限永遠(yuǎn)是客戶需求。例如客戶的標(biāo)準(zhǔn)是95%的性能，而模型只能達(dá)到92%，僅僅差3個(gè)百分點(diǎn)，就會(huì)讓模型很難上線。這類問(wèn)題在金融企業(yè)非常容易遇到。

為了解決上述問(wèn)題，平安科技提出了基于置信度評(píng)估的方法，通過(guò)這種方法，模型可以評(píng)估其“靠譜程度”。如果靠譜程度高，就通過(guò)，如果低，那么就需要人類接手，或者直接放棄。因?yàn)楹芏鄨?chǎng)景并不是信息越多越好，信息冗余已經(jīng)成為了不可忽視的現(xiàn)象。

而且，還需要解決圍繞各類復(fù)雜經(jīng)濟(jì)主體的多源異構(gòu)大數(shù)據(jù)難以統(tǒng)一表述、信息難以整體耦合和關(guān)聯(lián)的問(wèn)題。平安通過(guò)對(duì)數(shù)據(jù)標(biāo)簽化提取的置信度技術(shù)研究，提升金融數(shù)據(jù)標(biāo)簽化提取精度，提升流程自動(dòng)化水平；通過(guò)對(duì)多尺度多維度融合語(yǔ)義關(guān)聯(lián)的經(jīng)濟(jì)主體表達(dá)技術(shù)的研究，構(gòu)建金融領(lǐng)域知識(shí)圖譜。

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

信度評(píng)估方法采用的是強(qiáng)化學(xué)習(xí)構(gòu)建置信度框架。主要分為三個(gè)部分：

1.用BERT等語(yǔ)言模型等抽取語(yǔ)義向量

2.利用雙向長(zhǎng)短期記憶方式組合全局向量

3. 強(qiáng)化學(xué)習(xí)模塊根據(jù)人工打分?jǐn)M合相關(guān)標(biāo)準(zhǔn)，輸出置信度分?jǐn)?shù)。

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

此外，還可以嘗試通過(guò)Bagging思想構(gòu)建置信度框架。模型pipeline有4個(gè)階段：

1.利用Bagging思想，從數(shù)據(jù)中抽樣5份，訓(xùn)練出5套模型參數(shù)；

2. 在少量測(cè)試集上測(cè)試各套參數(shù)性能，根據(jù)性能例如F1值，分配各模型置信度權(quán)重；

3. 各套參數(shù)選擇某個(gè)標(biāo)簽后，在結(jié)果統(tǒng)計(jì)中累加對(duì)應(yīng)參數(shù)權(quán)重；

4. 最終輸出累加置信度最高標(biāo)簽。

技術(shù)應(yīng)用

平安科技前沿技術(shù)部門負(fù)責(zé)人王磊：大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

經(jīng)過(guò)實(shí)驗(yàn)證明，改進(jìn)后的語(yǔ)言模型在語(yǔ)義相似度、多分類、語(yǔ)義蘊(yùn)含等多類型國(guó)際公開(kāi)數(shù)據(jù)集上測(cè)試精度較BERT模型的提升大多在10%-20%，但召回率下降20%-50%；在實(shí)際項(xiàng)目中從輿情中提取公司標(biāo)簽的模型精度提升11個(gè)百分點(diǎn)，達(dá)到93%。

這在商業(yè)上非常有價(jià)值，例如雖然召回率降低了50個(gè)百分點(diǎn)，但意味著只有一半的模型需要人工干預(yù)，另一半的模型完全可以交給自動(dòng)化，這遠(yuǎn)比模型無(wú)法上線要好的多。

在金融領(lǐng)域，例如選股，模型的精準(zhǔn)度是首先需要考慮的，其他指標(biāo)可以稍差。例如從1000只備選股票中模型只選出了50只良好股票，可能會(huì)錯(cuò)過(guò)50只良好股票。但這種錯(cuò)過(guò)也是允許的，畢竟模型會(huì)“保證”選出來(lái)的50只股票大概率能夠賺錢或有超額收益。

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章