• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    本文作者: 我在思考中 2022-01-24 15:15
    導(dǎo)語(yǔ):大規(guī)模預(yù)訓(xùn)練模型的實(shí)際應(yīng)用情況如何?它們能解決哪些實(shí)際問(wèn)題?還有哪些不足?

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    作者 | 王磊

    整理 | 維克多

    編輯 | 青暮
    目前,大規(guī)模預(yù)訓(xùn)練模型已經(jīng)在自然語(yǔ)言處理領(lǐng)域取得了巨大的成功。BERT、GPT-3等大規(guī)模預(yù)訓(xùn)練模型被看做是“暴力美學(xué)”的一次勝利,驗(yàn)證了“模型越大,性能越好”的邏輯,業(yè)界也普遍形成了“煉大模型”的競(jìng)賽趨勢(shì),國(guó)內(nèi)研究機(jī)構(gòu)和企業(yè)也相繼發(fā)布了大規(guī)模預(yù)訓(xùn)練模型,呈現(xiàn)百花齊放、百家爭(zhēng)鳴的發(fā)展格局。

    這些模型的實(shí)際應(yīng)用情況如何?它們能解決哪些實(shí)際問(wèn)題?還有哪些不足?

    2021年12月,平安科技前沿技術(shù)部門負(fù)責(zé)人王磊在 CNCC 2021“產(chǎn)業(yè)共話:大型預(yù)訓(xùn)練模型的商業(yè)應(yīng)用及技術(shù)發(fā)展方向”論壇上,做了《大規(guī)模預(yù)訓(xùn)練模型金融領(lǐng)域應(yīng)用中面臨的主要問(wèn)題與應(yīng)對(duì)技術(shù)探討》的報(bào)告。在報(bào)告中,他指出了當(dāng)前大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域的“致命”問(wèn)題,針對(duì)這些問(wèn)題提出了平安科技的解決方案。

    例如,他認(rèn)為大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域性能達(dá)不到要求的原因可能是:“大規(guī)模預(yù)訓(xùn)練模型的訓(xùn)練語(yǔ)料庫(kù)規(guī)模很大,既包含了該領(lǐng)域的關(guān)鍵信息也包含了其他無(wú)關(guān)信息,使得模型缺少對(duì)關(guān)鍵信息的關(guān)注”,“當(dāng)前大規(guī)模預(yù)訓(xùn)練模型的機(jī)制改進(jìn)也也很少涉及對(duì)關(guān)鍵信息的提取”。

    基于此,王磊認(rèn)為,大規(guī)模預(yù)訓(xùn)練模型本質(zhì)上都是在處理信號(hào),但只要是信號(hào),就可能進(jìn)行分解,將背景信息和垂直領(lǐng)域的信息分離開(kāi)來(lái),從而有效貼合下游場(chǎng)景。

    另外,金融客戶對(duì)上線模型的精度要求很高,不少場(chǎng)景直接使用預(yù)加載模型往往很難滿足需求。王磊提出置信度評(píng)估方法,利用強(qiáng)化學(xué)習(xí)和Bagging思想評(píng)估模型靠譜程度。

    以下是演講全文,AI科技評(píng)論做了不改變?cè)獾恼怼?/span>

    本次分享的主題是《大規(guī)模預(yù)訓(xùn)練模型金融領(lǐng)域應(yīng)用中面臨的主要問(wèn)題與應(yīng)對(duì)技術(shù)探討》,主要以中國(guó)平安為案例,從問(wèn)題背景、語(yǔ)義空間分解技術(shù)、置信度評(píng)估方法以及應(yīng)用等幾個(gè)方面介紹。



    1

    問(wèn)題背景

    在平安公司場(chǎng)景下,大規(guī)模預(yù)訓(xùn)練模型在金融業(yè)務(wù)上的應(yīng)用主要集中在貸款風(fēng)控與股市投資。同時(shí),這兩個(gè)領(lǐng)域近些年的建模在因子層面會(huì)比較依賴大數(shù)據(jù),例如文本信息,使用預(yù)訓(xùn)練模型進(jìn)行處理能夠形成一些特征因子,從而方便分析理解。

    大規(guī)模預(yù)訓(xùn)練模型已經(jīng)在幾十個(gè)任務(wù)上刷榜,在醫(yī)療領(lǐng)域的表現(xiàn)更是令人瞠目結(jié)舌。但是深入到金融領(lǐng)域,其性能仍然無(wú)法滿足要求。以選股為例,傳統(tǒng)方法在信息獲取階段會(huì)人工從研報(bào)、雪球、知乎等論壇找尋一家公司的信息以及風(fēng)評(píng),然后結(jié)合基金經(jīng)理或投資人自己的判斷獲得對(duì)這家公司的洞察,從而決定是否買進(jìn)。

    由于金融領(lǐng)域的容錯(cuò)性特別低,而且要求模型對(duì)專業(yè)知識(shí)有很深的理解。如果達(dá)不到一定的理解水平,從業(yè)者寧可不用AI模型。

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    一般而言,對(duì)于單任務(wù),一個(gè)模型的性能能達(dá)到90%,但如果需要理解一段話或者一段專業(yè)評(píng)語(yǔ),則需要三層模型才能形成一定的特征,這時(shí)模型性能就會(huì)下降為70%左右的水平。因此,在投資等要求嚴(yán)格的場(chǎng)景下,預(yù)訓(xùn)練模型很難應(yīng)用。

    為什么會(huì)出現(xiàn)這種問(wèn)題?個(gè)人認(rèn)為,大規(guī)模預(yù)訓(xùn)練模型的語(yǔ)料庫(kù)是大型文本,它注重廣度和背景,對(duì)于深度和細(xì)節(jié)較少關(guān)注。

    以國(guó)內(nèi)企業(yè)研發(fā)的一些預(yù)訓(xùn)練模型為例,其早期改進(jìn)的方式都集中在Mask層面,而Msak機(jī)制更傾向于集中學(xué)習(xí)信息的廣度。而當(dāng)模型應(yīng)用到法律、醫(yī)學(xué)等領(lǐng)域時(shí),更需要的是“深度”理解。

    如何解決?目前有很多思路,例如加入專家知識(shí),知識(shí)增強(qiáng)、混合訓(xùn)練等等。目前,中國(guó)平安在探索語(yǔ)義空間分解技術(shù)和置信度評(píng)估方法。



    2

    語(yǔ)義空間分解技術(shù)

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    大規(guī)模預(yù)訓(xùn)練模型涵蓋了很多背景信息,那么能否進(jìn)行再一次的分解,將背景信息和垂直領(lǐng)域的知識(shí)體系分離開(kāi)來(lái)?分解不能沒(méi)有標(biāo)準(zhǔn)和依據(jù),而大規(guī)模語(yǔ)言模型實(shí)際上是在處理信號(hào),當(dāng)模型理解信號(hào)的時(shí)候,雖然信息和語(yǔ)義仍然在,但卻在中間發(fā)生了各種形式的變換。因此,無(wú)論是哪種大模型,其本質(zhì)都是將信息或語(yǔ)義重新轉(zhuǎn)述為信號(hào)。

    那么,既然是信號(hào),就能夠進(jìn)行分解。我們已經(jīng)嘗試了多種方式,其中一種做法是:基于國(guó)內(nèi)機(jī)構(gòu)提出的大規(guī)模預(yù)訓(xùn)練模型,加入高中低濾波器,然后用自適應(yīng)頻譜機(jī)制進(jìn)行處理,可以理解為一個(gè)Attention機(jī)制,最后進(jìn)入下游任務(wù)訓(xùn)練。

    經(jīng)過(guò)實(shí)驗(yàn)表明,我們提出的頻譜分解網(wǎng)絡(luò)結(jié)構(gòu)(Filter-Loss和Filter-layer ) ,結(jié)合經(jīng)典語(yǔ)言模型訓(xùn)練神經(jīng)網(wǎng)絡(luò),在各類型任務(wù)中均可顯著提升語(yǔ)言模型能力。

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    更為具體,不僅是在垂直領(lǐng)域,改進(jìn)后的語(yǔ)言模型在11個(gè)國(guó)際公開(kāi)數(shù)據(jù)集上測(cè)試結(jié)果較BERT模型提升3-20%。這也證明,將語(yǔ)義空間進(jìn)行分離,然后和下游任務(wù)結(jié)合的做法具有通用性。



    3

    置信度評(píng)估方法

    在金融領(lǐng)域,無(wú)論模型達(dá)到什么樣的水準(zhǔn),其上限永遠(yuǎn)是客戶需求。例如客戶的標(biāo)準(zhǔn)是95%的性能,而模型只能達(dá)到92%,僅僅差3個(gè)百分點(diǎn),就會(huì)讓模型很難上線。這類問(wèn)題在金融企業(yè)非常容易遇到。

    為了解決上述問(wèn)題,平安科技提出了基于置信度評(píng)估的方法,通過(guò)這種方法,模型可以評(píng)估其“靠譜程度”。如果靠譜程度高,就通過(guò),如果低,那么就需要人類接手,或者直接放棄。因?yàn)楹芏鄨?chǎng)景并不是信息越多越好,信息冗余已經(jīng)成為了不可忽視的現(xiàn)象。

    而且,還需要解決圍繞各類復(fù)雜經(jīng)濟(jì)主體的多源異構(gòu)大數(shù)據(jù)難以統(tǒng)一表述、信息難以整體耦合和關(guān)聯(lián)的問(wèn)題。平安通過(guò)對(duì)數(shù)據(jù)標(biāo)簽化提取的置信度技術(shù)研究,提升金融數(shù)據(jù)標(biāo)簽化提取精度,提升流程自動(dòng)化水平;通過(guò)對(duì)多尺度多維度融合語(yǔ)義關(guān)聯(lián)的經(jīng)濟(jì)主體表達(dá)技術(shù)的研究,構(gòu)建金融領(lǐng)域知識(shí)圖譜。

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    信度評(píng)估方法采用的是強(qiáng)化學(xué)習(xí)構(gòu)建置信度框架。主要分為三個(gè)部分:

    1.用BERT等語(yǔ)言模型等抽取語(yǔ)義向量

    2.利用雙向長(zhǎng)短期記憶方式組合全局向量

    3. 強(qiáng)化學(xué)習(xí)模塊根據(jù)人工打分?jǐn)M合相關(guān)標(biāo)準(zhǔn),輸出置信度分?jǐn)?shù)。

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    此外,還可以嘗試通過(guò)Bagging思想構(gòu)建置信度框架。模型pipeline有4個(gè)階段:

    1.利用Bagging思想,從數(shù)據(jù)中抽樣5份,訓(xùn)練出5套模型參數(shù);

    2. 在少量測(cè)試集上測(cè)試各套參數(shù)性能,根據(jù)性能例如F1值,分配各模型置信度權(quán)重;

    3. 各套參數(shù)選擇某個(gè)標(biāo)簽后,在結(jié)果統(tǒng)計(jì)中累加對(duì)應(yīng)參數(shù)權(quán)重;

    4. 最終輸出累加置信度最高標(biāo)簽。



    4

    技術(shù)應(yīng)用

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    經(jīng)過(guò)實(shí)驗(yàn)證明,改進(jìn)后的語(yǔ)言模型在語(yǔ)義相似度、多分類、語(yǔ)義蘊(yùn)含等多類型國(guó)際公開(kāi)數(shù)據(jù)集上測(cè)試精度較BERT模型的提升大多在10%-20%,但召回率下降20%-50%;在實(shí)際項(xiàng)目中從輿情中提取公司標(biāo)簽的模型精度提升11個(gè)百分點(diǎn),達(dá)到93%。

    這在商業(yè)上非常有價(jià)值,例如雖然召回率降低了50個(gè)百分點(diǎn),但意味著只有一半的模型需要人工干預(yù),另一半的模型完全可以交給自動(dòng)化,這遠(yuǎn)比模型無(wú)法上線要好的多。

    在金融領(lǐng)域,例如選股,模型的精準(zhǔn)度是首先需要考慮的,其他指標(biāo)可以稍差。例如從1000只備選股票中模型只選出了50只良好股票,可能會(huì)錯(cuò)過(guò)50只良好股票。但這種錯(cuò)過(guò)也是允許的,畢竟模型會(huì)“保證”選出來(lái)的50只股票大概率能夠賺錢或有超額收益。


    雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    平安科技前沿技術(shù)部門負(fù)責(zé)人王磊:大規(guī)模預(yù)訓(xùn)練模型在垂直領(lǐng)域應(yīng)用的缺陷與改進(jìn)

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 特级毛片在线大全免费播放| 日韩无码天堂| 亚洲精品无码久久久久av老牛| 国产亚洲欧美精品久久久| 亚洲av中文在我观看| 国产精品无码久久AV不卡| 精品一区二区三区无码视频无码| 国产精品乱码一区二区三| 屁屁影院国产第一页| 绍兴县| 4虎影视国产在线观看精品| 亚洲色大成永久WW网站| 学生无套内精XXXXX| 东京热无码国产精品| 人妻伦理在线一二三区| 天堂а√8在线最新版在线| 国产精品免费第一区二区| 91视频在线| 浪潮AV激情高潮国产精品| 亚洲人成色777777精品音频| 亚洲人成网站18禁动漫无码 | 亚洲深深色噜噜狠狠网站| 蜜芽亚洲AV无码精品国产午夜| 大地资源中文在线观看西瓜| 亚洲综合在线日韩av| 亚洲av日韩av中文高清性色| 国产综合色精品一区二区三区| 久久精品国产99久久久古代| 久久99精品久久久久麻豆| 人妻无码中文字幕免费中文仙人 | 巨胸不知火舞露双奶头无遮挡| 一级做a爰片久久毛片**| 制服丝袜亚洲无码| 精品国产AV无码一区二区三区| 久久夜色精品国产欧美| 四季亚洲AV永久无码精品尤物app| 中文字幕久久波多野结衣AV| 日韩无专区精品中文字幕| 国产免费一级高清淫日本片| 亚洲高清AV| 中文字幕v亚洲ⅴv天堂|