• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    銀行AI 正文
    發私信給胡敏
    發送

    0

    國有大行OCR「進化論」:一個雙劍合璧的「樣本」

    本文作者: 胡敏 2022-09-08 19:09
    導語:一張小票據,也蘊藏著騰訊優圖的底氣和耐性。

    國有大行OCR「進化論」:一個雙劍合璧的「樣本」

    面對版式不固定、特殊字符

    定制化OCR「不靈了」


    在銀行這片票據“集散地”上,OCR并非新鮮事物。

    早在2017、2018年,隨著銀行各業務線數字化轉型提速,涉及憑證票證類別的需求不斷增加,各大銀行就將大量定制化OCR模型引入業務系統。

    這讓原本全憑“手工勞作”的票據錄入,搭乘上效率“直升機”,沖破了票據處理的效率屏障。

    國有大行探索OCR的時間則更早。

    2013年,在數字化號角還未吹得像今天這般響亮時,某國有大行便成立專門的技術研發團隊,完成了OCR技術從0到1的探索。遵照“兩錄一校”的原則,原來需由兩位錄入員分別錄入憑證信息的工作,隨著OCR技術應用,替換成了一位人工錄入,一位OCR錄入,錄入人員立馬減半。

    不過,隨著在OCR領域的深入探索,這家大型銀行也發現,現有OCR技術能識別身份證、銀行卡等證件、增值稅專用發票、增值稅普通發票等有固定版式、文檔相對簡單的內容,但在面對銀行許多長尾場景下偏復雜的識別時,就容易無能為力。

    特別是遇到以下兩種情況:第一票據版式不固定、樣本量較少;第二文檔中含有手寫體、中英韓法等多種語言、特殊字符等,識別準確率大大降低。

    過往,為應對這些棘手問題,他們只能在前端繼續投入大量人力進行錄入和校驗,而在后端,則增加開發人員,對新出現的版式進行模型的重新配置。

    眾所周知,銀行票據種類、版式多如牛毛,開發人員不斷“打補丁”的方式也只是杯水車薪、隔靴搔癢。

    騰訊云售前架構師阿凱告訴雷峰網,今年年初,他與這家國有大行研發中心負責OCR的項目經理溝通時發現,對方已經圍繞OCR的整體研發,打造了一支非常專業的團隊。

    到底如何提升OCR的能力,使其能對除固定版式、常規文檔之外的版式、信息進行識別提取,并直接錄入,且保證識別準確率?

    今年年初,騰訊云副總裁、騰訊優圖實驗室總經理吳運聲去到了銀行,與對方金融科技院院長見了一面,讓這一問題有了新的解法。

    多模態融合技術

    提升OCR模型泛化能力


    事實上,騰訊優圖也一直在嘗試攻克版式不固定、識別準確性的問題。

    去年到今年,他們在OCR技術上發表了一系列的論文。其中關注復雜場景文檔信息提取的有三篇,分別著眼在大規模多模態文檔預訓練模型、泛化版式文檔信息提取、表格等復雜關系提取。直面挑戰,攻克業界難題。

    這里需理解一下多模態和單一模態。多模態是融合視覺信息、語義信息、布局排版信息等單一模態的集合體。騰訊優圖在多模態文檔預訓練的基礎上,進一步統一了文檔結構化信息提取范式,形成智能結構化基礎模型,單一模型支持5000種以上版式。

    就好比培養人的運動技能,基于常規多模態進行大規模訓練的模型,只是針對一項基本能力,比如說腿部力量,進行重點訓練;而基于智能結構化基礎模型,則是提前教會你足球、籃球、網球多項等運動的關鍵動作,這樣人們就能在日常生活中參與不同的運動。

    放在金融文檔識別場景中,基于這種方式訓練出來的模型,泛化能力得到了極大提升,不論是銀行單據、票證、憑證等,它都能進行高精度的信息提取。

    而這也恰恰解決了該銀行一直以來的困擾。

    今年年初,在雙方高層進行溝通后的短短一個月內,該銀行就決定引入騰訊云TI-OCR產品,基于騰訊優圖實驗室在OCR領域多年的積累,來對銀行業務處理票據錄入過程中的十大重點場景進行優化升級,并把這一項目名稱取名為“多模態融合應用于計算機視覺”。

    騰訊云產品架構師阿凱表示:“不論是信息提取還是表格還原,都用了多模態技術,這也給整個項目定調?!?/p>

    成立聯合實驗室

    讓技術與業務更相融


    以往,騰訊云往往是通過向客戶提供算法包、訓練平臺等原子化產品進行合作。但事實上,若要真正和客戶的實際業務相結合,不免還需涉及一些工程業務方面的開發。

    為讓技術與業務更相融合,雙方決定成立聯合實驗室,探索更深入的合作。然而,剛開展合作就遇到的一個難題:銀行場景復雜多樣,到底選擇從哪一個場景開始下手?

    騰訊優圖算法研究員浩宇印象很深刻:“一開始確定業務場景時,行方一開始邀請我們分析了有差不多上千種場景,并梳理了其中痛點問題?!?/p>

    通過反復分析,最終雙方達成一致,先啃“硬骨頭”,決定最先在托管對賬單、提單以及集中錄入這三個業務場景的結構化識別中用上多模態技術。

    “托管對賬單、提單這幾個場景在業界比較接近天花板的難度?!苯桓都軜嫀熐锝追寰W(公眾號:雷峰網)說。

    國有大行OCR「進化論」:一個雙劍合璧的「樣本」

    提單樣本圖,圖源網絡

    以基金公司托管對賬單為例,各家基金公司在銀行內部托管一個公共賬號,記錄了投資人每一時段各基金持有份額和所有交易明細等,以方便投資人定期了解自己的交易情況。

    這場景最大的難點有三個:

    第一,版式多、樣本少?;鸸颈姸嗲颐考夜镜馁~單版式都不相同,且隨著業務擴展或變更,賬單板式也在發生變化。此外,也存在一些基金賬單比較少的情況,這都十分考驗OCR結構化提取模型。

    第二,具有表格等復雜關系。多數基金賬單都是以表格形式呈現,比如,XX在某年某月某日交易了XX金額,這需要OCR能夠從表格里面去提取結構化信息,而這也是目前業界普遍面臨的難點。

    第三,還存在字段嵌套、容易混淆等問題。比如在基金單交易中,同時存在多個相同形式表格,但表頭的時間或含義不同,這要求OCR能夠區分出來各種表格對應的具體含義。

    國有大行OCR「進化論」:一個雙劍合璧的「樣本」


    從實驗室走向實際應用

    還有兩道坎要跨越

    今年四月中旬,騰訊云動身派駐項目經理、算法研究員、交付架構師等項目成員去到該銀行,了解其實際業務運行情況,并確定方案進行指導標注。

    然后,在合作過程中,他們也發現,OCR技術從實驗室走向實際應用時,也還有一些坎需要跨越:

    如何讓產品更滿足業務的需求?

    即便是在實驗室打磨訓練過多次的產品,在遇到復雜的業務場景時,難免還是“不夠用”,需要項目團隊在產品實際落地過程中結合業務進一步“查漏補缺”。

    浩宇提到,他們在印鑒卡的問題分析過程中就曾遇到過一個類似刮獎的密碼驗證圖層,在單據識別過程中,需驗證涂層是否完整,以及識別密碼涂層刮開后的文字?!斑@是我們在實驗室中完全沒見過的?!?/p>

    與此同時,在實驗室中對事物的重要性判斷,和現實也可能會出現偏差。比如,實驗室更看重如何對表格中的信息進行提取,但在實際業務層面,還需要關注表格信息的含義,比如這是當前的基金交易信息,還是歷史交易信息。

    雙劍合璧

    票據識別漸入「無人區」


    面對這些分歧,雙方共同協商討論、解決問題也變得十分重要。

    國有大行OCR「進化論」:一個雙劍合璧的「樣本」

    騰訊云、優圖實驗室項目團隊交流中

    經過半年的接觸和交流,交付架構師少凱談到,整個項目讓他感觸最深的有三個點,第一是銀行的配合和參與,第二是銀行的開放心態,第三是銀行愿意學習的心態。

    拿樣本圖舉例,一般樣本圖都散落在各個業務部門,開發部門也需要內部協調才能拿到樣本圖,但銀行每一次都會快速響應,及時從業務部門收集樣本圖。

    與此同時,在整個合作過程,該銀行也一直強調,這次合作不僅是要獲得一套新工具,而且還要讓自己內部員工學習如何進行模型訓練,以及對模型訓練平臺有更深入了解,以便未來用到更多的場景中去。

    托管對賬單這一場景從今年7月份左右開始正式建模,經過雙方的反復測試、溝通、改進,其字段識別準確率目前已達90%以上。此外,包括提單、集中錄入等9個場景,也將陸續上線。

    隨著這種多模態技術加速滲透具體業務場景,該銀行也初嘗數字化的甜頭,其前端錄入環節將從單OCR錄入改為雙OCR錄入,減少了至少1/3左右的成本投入。

    而后端開發上,以前開發人員需花上兩三天時間進行新版式的開發,現如今只需要拿幾張圖進行標注訓練,一小時就能夠完成整體的訓練和上線的流程,極大提升了訓練效率,減輕了開發人員負擔。

    接下來雙方也將繼續“雙劍合璧”,通過聯合開發,讓票據識別向智能化、自動化邁進,讓票據錄入逐漸走入“無人區”。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产午夜精品一区二区三区极品 | 欧美大胆自慰| av不卡一区| 狠狠人妻久久综合| 99热这里只有免费国产精品| 国产精品v欧美精品∨日韩| 亚洲精品有码在线观看| 亚洲中文字幕手机在线第一页| 无码中文字幕色专区| 日韩福利片午夜免费观着| 婷婷四虎东京热无码群交双飞视频 | 91精品91久久久久久| 精品人妻一二| 久久人人爽av亚洲精品| 2019亚洲午夜无码天堂| 中文字幕在线高清| 色爱综合网| 午夜丁香婷婷| 玩弄漂亮少妇高潮白浆| 午夜亚洲一区| 色欲人妻综合网站| 国内偷自视频区视频综合| 日本高清一区免费中文视频| 亚洲区视频| 制服?美女?丝袜美腿?诱惑?中文字幕 | 伊人久久人妻| 亚洲无码A视频在线| 精品免费国产一区二区三区四区介绍| 亚洲视频a| 国产乱码精品一区二三区| 精品视频在线观看免费无码| 欧美视频免费一区二区三区| 欧美色欧美亚洲高清在线视频 | 欧美日韩不卡中文字幕在线| 欧美又黄又大又爽a片三年片| 男女色色小视频不用手遮挡的视频在线看网页在线看完整在线看免费 | 日韩高清无码一卡二卡| 精品国产自在在线在线观看| 国产精品乱码久久久久久小说| 性姿势真人免费视频放| 九一色色里|