CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

本文作者：汪思穎

2018-12-31 23:25

導(dǎo)語(yǔ)：實(shí)驗(yàn)數(shù)據(jù)方面，共使用了33種驗(yàn)證碼方案，涉及網(wǎng)站超過(guò)50個(gè)，其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個(gè)著名網(wǎng)站。

雷鋒網(wǎng) AI 科技評(píng)論按，本文作者是西北大學(xué)葉貴鑫，他為 AI 科技評(píng)論撰寫(xiě)了關(guān)于 CCS 2018 論文《使用少量樣本破解文本驗(yàn)證碼》的獨(dú)家解讀，內(nèi)容如下，未經(jīng)許可禁止轉(zhuǎn)載。

1. 前言

相信大家在日常上網(wǎng)的時(shí)候都會(huì)遇到“千奇百怪”的驗(yàn)證碼，而在種類繁多的驗(yàn)證碼家族中，文本驗(yàn)證碼是使用最廣泛的一種，也是我們遇到最多的一種驗(yàn)證碼方案。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的突破性發(fā)展，文本驗(yàn)證碼的安全性也受到了挑戰(zhàn)。通過(guò)收集大量目標(biāo)網(wǎng)站的驗(yàn)證碼，并訓(xùn)練一個(gè)深度網(wǎng)絡(luò)模型，就可以實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站驗(yàn)證碼的攻擊。為了抵抗基于深度學(xué)習(xí)模型的攻擊，一方面，各大網(wǎng)站都采用諸如字符扭曲、粘連、旋轉(zhuǎn)，背景混淆，空心字體等多種復(fù)雜變換方案來(lái)提高文本驗(yàn)證碼的安全性；另一方面，有些網(wǎng)站采用了諸如前端代碼混淆、關(guān)鍵代碼加密等反分析方式來(lái)防止驗(yàn)證碼被惡意收集和自動(dòng)爬取，進(jìn)而通過(guò)增大攻擊的成本來(lái)降低驗(yàn)證碼被攻擊的可能性。然而，上述兩種方式真的能夠增強(qiáng)驗(yàn)證碼的安全性嗎？

接下來(lái)，我將介紹一篇ACM CCS 2018上的一篇基于少量樣本構(gòu)建驗(yàn)證碼求解器的論文：《Yet Another Text Captcha Solver: A Generative Adversarial Network Based Approach》，該論文是由中國(guó)西北大學(xué)的房鼎益、陳曉江教授團(tuán)隊(duì)、北京大學(xué)以及英國(guó)蘭卡斯特大學(xué)聯(lián)合發(fā)表的。

論文地址：https://dl.acm.org/citation.cfm?doid=3243734.3243754

論文公開(kāi)了部分源碼：https://github.com/yeguixin/captcha_solver

2. Idea的由來(lái)

我們?cè)谝淮窝芯啃〗M內(nèi)關(guān)于AI的討論中了解到了Generative Adversarial Networks(GANs)，當(dāng)時(shí)我們了解到GANs不僅可以生成目標(biāo)數(shù)據(jù)，而且其改進(jìn)技術(shù)Conditional Generative Adversarial Networks（CGANs）還可以實(shí)現(xiàn)圖像自動(dòng)標(biāo)注的任務(wù)（如圖像風(fēng)格間的轉(zhuǎn)換）。

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

圖 1：“RGB->油畫(huà)”轉(zhuǎn)換效果圖

既然GANs有強(qiáng)大的生成能力，那么就可能生成海量與目標(biāo)網(wǎng)站風(fēng)格類似的驗(yàn)證碼。CGANs既然可以實(shí)現(xiàn)圖像風(fēng)格間的轉(zhuǎn)換（如圖1所示），那么就能夠去掉圖像中的顏色，換句話說(shuō)，就可以去掉驗(yàn)證碼圖像中復(fù)雜的混淆背景。上述兩點(diǎn)設(shè)想對(duì)于減少訓(xùn)練樣本、降低攻擊成本有至關(guān)重要的作用。具體地，如果能夠自動(dòng)生成大量的驗(yàn)證碼，就直接讓攻擊者從手動(dòng)收集和標(biāo)注驗(yàn)證碼的繁重工作中解脫出來(lái)，進(jìn)而降低攻擊成本；如果能夠去掉驗(yàn)證碼中的背景，就能夠減少訓(xùn)練樣本的數(shù)量，從而提高模型的識(shí)別率。

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

圖 2：預(yù)處理結(jié)果示例

然而，事情并沒(méi)有我們預(yù)想的那樣一帆風(fēng)順。雖然CGANs可以有效地去除驗(yàn)證碼的背景（如圖2所示）。但GANs的生成效果卻沒(méi)有想象中的好。GANs是通過(guò)隨機(jī)噪聲或高斯噪聲來(lái)生成數(shù)據(jù)的，并且訓(xùn)練過(guò)程中需要大量的真實(shí)數(shù)據(jù)作為參考，而當(dāng)前驗(yàn)證碼中加入了非常復(fù)雜的字符變換，若要訓(xùn)練驗(yàn)證碼生成模型，勢(shì)必需要更多真實(shí)驗(yàn)證碼作為參考。

既然使用隨機(jī)噪聲生成驗(yàn)證碼需要大量的真實(shí)數(shù)據(jù)，那么我們就開(kāi)始考慮使用傳統(tǒng)驗(yàn)證碼生成器去生成，將生成的驗(yàn)證碼替換成隨機(jī)噪聲作為GANs的輸入，讓GANs對(duì)生成的驗(yàn)證碼做微調(diào)。然后使用鑒別器評(píng)估生成的驗(yàn)證碼的風(fēng)格是否與真實(shí)驗(yàn)證碼風(fēng)格類似，即生成數(shù)據(jù)與真實(shí)數(shù)據(jù)同分布。于是，我們首先將驗(yàn)證碼參數(shù)化表示，即所用的字符、字符旋轉(zhuǎn)角度、扭曲程度、所用背景、所用字體等參數(shù)化，然后利用網(wǎng)絡(luò)自動(dòng)調(diào)整生成參數(shù)。這樣就實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)生成，減少了人工參與的工作量。利用生成的數(shù)據(jù)，就可以訓(xùn)練驗(yàn)證碼識(shí)別模型。為了進(jìn)一步降低生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差別，我們使用了遷移學(xué)習(xí)技術(shù)調(diào)優(yōu)模型，從而提高模型的泛化能力和識(shí)別精度。于是，我們的整個(gè)Idea就這樣產(chǎn)生了。

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

圖 3：系統(tǒng)架構(gòu)圖

3. 系統(tǒng)架構(gòu)和各模塊簡(jiǎn)介

該系統(tǒng)主要分為4個(gè)模塊（如圖3所示），下面來(lái)簡(jiǎn)單介紹下各個(gè)模塊的功能與作用。

（1）驗(yàn)證碼合成模塊。合成驗(yàn)證碼之前，首先需要手動(dòng)分析組成驗(yàn)證碼的主要元素（論文中稱為security features），如由哪些字符或數(shù)字組成，字符是否有扭曲和旋轉(zhuǎn)特征，由哪些背景組成等，然后將上述元素參數(shù)化，并賦予初始值生成初始的驗(yàn)證碼輸入到GANs里面。隨著GANs的訓(xùn)練，生成器不斷調(diào)整生成參數(shù)，直到鑒別器無(wú)法鑒別是生成的還是真實(shí)的驗(yàn)證碼。為了保證風(fēng)格的一致性，我們使用了500個(gè)真實(shí)驗(yàn)證碼參與到訓(xùn)練過(guò)程中。訓(xùn)練好生成器后，便可以生成大量的驗(yàn)證碼用于構(gòu)建初始的驗(yàn)證碼求解器。需要說(shuō)明的是，對(duì)于有背景的驗(yàn)證碼，需要分別生成有背景和無(wú)背景的驗(yàn)證碼，以便進(jìn)行下一步的預(yù)處理。特別地，為了生成無(wú)背景的驗(yàn)證碼，只需要將背景的那一項(xiàng)參數(shù)置為NULL。

（2）預(yù)處理模塊。這一模塊主要針對(duì)具有背景或空心字體的驗(yàn)證碼而設(shè)計(jì)的，主要目的是去除復(fù)雜的混淆背景，或者統(tǒng)一字體類型，以減少使用訓(xùn)練數(shù)據(jù)的數(shù)量，進(jìn)而降低模型的復(fù)雜度、加快模型收斂速度。我們使用了Pix2Pix模型來(lái)完成這一步驟。以復(fù)雜混淆背景驗(yàn)證碼為例（如圖2所示），訓(xùn)練時(shí)輸入有背景的驗(yàn)證碼，同時(shí)輸入無(wú)背景驗(yàn)證碼作為參考數(shù)據(jù)。由于生成器使用了L1 Loss，能夠很好的處理圖像中的低頻部分（圖像的色塊），故根據(jù)目標(biāo)函數(shù)，生成器通過(guò)調(diào)整模型參數(shù)，最終能夠?qū)⒂斜尘暗尿?yàn)證碼轉(zhuǎn)換成無(wú)背景的驗(yàn)證碼。

（3）驗(yàn)證碼識(shí)別模型的構(gòu)建。該驗(yàn)證碼識(shí)別模型使用生成數(shù)據(jù)來(lái)構(gòu)建，對(duì)于每一種類型的驗(yàn)證碼，我們使用了20萬(wàn)生成數(shù)據(jù)，利用LeNet-5來(lái)構(gòu)建驗(yàn)證碼識(shí)別模型，與LeNet-5稍有不同，我們?cè)黾恿?層卷積層和3層池化層來(lái)增強(qiáng)其模型的識(shí)別能力。其中，每一層卷積層的卷積核大小為3*3，在池化層中使用了max-pooling。

（4）模型優(yōu)化。為了進(jìn)一步縮小生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差異，我們使用了遷移學(xué)習(xí)，利用少量的真實(shí)樣本，將（3）中的模型進(jìn)行調(diào)優(yōu)。由于CNN模型的后面幾層是更為抽象的特征，而由于真實(shí)樣本數(shù)量的限制，我們的生成器在抽象特征上面與真實(shí)數(shù)據(jù)存在差異，故需要訓(xùn)練和調(diào)整模型后面幾層的參數(shù)，并保持前面幾層的參數(shù)不變。

4. 簡(jiǎn)單說(shuō)說(shuō)實(shí)驗(yàn)

實(shí)驗(yàn)數(shù)據(jù)方面，共使用了33種驗(yàn)證碼方案，涉及網(wǎng)站超過(guò)50個(gè)，其中幾乎全部都是世界主流網(wǎng)站包括Alexa全球排名前50的32個(gè)著名網(wǎng)站。對(duì)于每一種驗(yàn)證碼，自動(dòng)或手動(dòng)收集和標(biāo)記1500個(gè)真實(shí)驗(yàn)證碼，其中500個(gè)用于訓(xùn)練生成器和調(diào)優(yōu)CNN模型，1000個(gè)用于測(cè)試。實(shí)驗(yàn)結(jié)果表明，我們方法不僅識(shí)別率明顯高于state-of-the-arts(如圖5所示)，而且時(shí)間開(kāi)銷明顯要小（如圖4所示）。對(duì)于有些驗(yàn)證碼方案，我們的方法的識(shí)別率高于了人類的識(shí)別率。

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

圖 4：當(dāng)前網(wǎng)站驗(yàn)證碼識(shí)別結(jié)果圖

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

圖 5：與 state-of-the-arts 比較結(jié)果圖

5. 如何應(yīng)對(duì)

為了緩解此類攻擊，建議網(wǎng)站同時(shí)使用多套驗(yàn)證碼方案，驗(yàn)證碼中每個(gè)字符都使用不同的字體和風(fēng)格，并且需要頻繁的更新（最好更新頻率為一天）驗(yàn)證碼方案，以增加攻擊的成本使攻擊難以成功。但這只是暫時(shí)的緩解措施，并不能從根源上增強(qiáng)驗(yàn)證碼的安全性，而且復(fù)雜的驗(yàn)證碼方案由于用戶友好性差并不能很好的推廣使用。我們也相信，資深的攻擊者（或者黑產(chǎn)）會(huì)以更高的效率和更短的時(shí)間來(lái)發(fā)起攻擊。目前，我們正致力于新的文本驗(yàn)證碼生成方案。

6. 對(duì)當(dāng)前網(wǎng)站驗(yàn)證碼的安全性分析和思考

我們發(fā)現(xiàn)，有些網(wǎng)站后臺(tái)使用了機(jī)器人自動(dòng)檢測(cè)技術(shù)，即根據(jù)輸入驗(yàn)證碼時(shí)的輸入速度、但應(yīng)時(shí)間等行為特征來(lái)判斷前端操作是人還是計(jì)算機(jī)自動(dòng)程序。然而，我們近期的研究發(fā)現(xiàn)，這種檢測(cè)技術(shù)也可以被騙過(guò)。若故意在相鄰的兩個(gè)操作之間間隔一定的時(shí)間，就可以很輕松的繞過(guò)這種檢測(cè)機(jī)制。利用我們訓(xùn)練好的驗(yàn)證碼識(shí)別模型，在兩個(gè)仍然使用文本驗(yàn)證碼的主流網(wǎng)站（其中一個(gè)使用了機(jī)器人自動(dòng)檢測(cè)技術(shù)）上進(jìn)行了實(shí)驗(yàn)，大多數(shù)情況下攻擊一次就成功了。

我們通過(guò)該研究來(lái)提高業(yè)界對(duì)驗(yàn)證碼安全性的重視和關(guān)注，并呼吁業(yè)界開(kāi)發(fā)和使用更加安全、用戶更友好的驗(yàn)證碼方案，也希望能與業(yè)界一道，在身份認(rèn)證技術(shù)上，尋求更高的突破。

【延申閱讀】

CCS 2018論文解讀：使用少量樣本破解文本驗(yàn)證碼

西北大學(xué)-愛(ài)迪德物聯(lián)網(wǎng)信息安全聯(lián)合實(shí)驗(yàn)室（NISL）

2009年7月，西北大學(xué)與國(guó)際知名的數(shù)字電視領(lǐng)先技術(shù)提供商愛(ài)迪德（Irdeto）公司共同組建了“西北大學(xué)-愛(ài)迪德物聯(lián)網(wǎng)信息安全國(guó)際聯(lián)合實(shí)驗(yàn)室”，主要開(kāi)展：

（1）無(wú)線網(wǎng)絡(luò)、傳感網(wǎng)與物聯(lián)網(wǎng)基礎(chǔ)理論、關(guān)鍵技術(shù)、軟硬件設(shè)計(jì)及其在大型遺址保護(hù)和野生動(dòng)物監(jiān)測(cè)中的示范應(yīng)用；

（2）移動(dòng)互聯(lián)網(wǎng)、工業(yè)網(wǎng)絡(luò)與家庭及個(gè)人網(wǎng)絡(luò)安全技術(shù)；

（3）軟件安全、代碼混淆與虛擬機(jī)技術(shù)相結(jié)合的軟件保護(hù)技術(shù)。

實(shí)驗(yàn)室先后承擔(dān)了國(guó)家自然科學(xué)基金、中歐國(guó)際合作計(jì)劃、國(guó)家科技支撐計(jì)劃等多項(xiàng)國(guó)家和省部級(jí)科研項(xiàng)目，擁有“WSN非均勻分簇路由方法”、“移動(dòng)目標(biāo)定位”、“透明加解密”和“文本信息隱藏”等20余項(xiàng)發(fā)明專利，開(kāi)發(fā)了具有自主知識(shí)產(chǎn)權(quán)的土遺址監(jiān)測(cè)專用傳感節(jié)點(diǎn)、用于野生動(dòng)物監(jiān)測(cè)的WSN網(wǎng)關(guān)和多模數(shù)據(jù)傳輸基站。已在陜北明長(zhǎng)城、西安市含光門(mén)、大明宮遺址初步應(yīng)用。與意大利SALENTO大學(xué)、加拿大VITORIA大學(xué)和荷蘭Irdeto公司建立了密切合作關(guān)系。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門(mén)文章