網絡機器人出沒，如何利用大數據技術實時識別和防護 | 硬創公開課（總結＋視頻）

本文作者：又田

2018-01-08 15:09

導語：如何建設網絡機器人實時立體防控體系，成為很多企業關心的問題。

保守估計，互聯網約50%~60%的流量由網絡機器人貢獻，航空票務、政府公示、社保信息、公積金信息、招聘簡歷等，都是網絡爬蟲的重災區。網絡爬蟲不但虛耗資源，影響正常用戶體驗，還容易導致信息泄露，無效營銷等，企業和個人都受損。如何建設網絡機器人實時立體防控體系，成為很多企業關心的問題。

本次公開課，雷鋒網宅客頻道（微信公眾號：letshome）邀請了邦盛科技技術總監李白分享他和他的團隊如何利用數據、技術、規則、模型、產品來建設網絡機器人實時識別與防護體系。

嘉賓介紹

網絡機器人出沒，如何利用大數據技術實時識別和防護 | 硬創公開課（總結＋視頻）

李白，浙江邦盛科技的技術總監，主要負責實時大數據處理、分析、智能決策技術領域的研究與實踐，致力將實時大數據賦能與業務場景的結合與落地實踐。做為資深的業務安全專家，長期專注爬蟲行為分析、識別、防護、對抗，擁有豐富的實踐經驗和技術積累。

以下是公開課總結文實錄+視頻，在不妨礙原意的表達上，雷鋒網宅客頻道略有刪節，視頻附在文末：

若想獲得此次公開課完整 PPT，請關注微信公眾號宅客頻道（微信ID：letshome），回復“網絡機器人 ”。

內容介紹

本期雷鋒網硬創公開課包含但不限于以下內容：

網絡機器人發展現狀趨勢及特點，以及給我們帶來的危害分析。
大數據時代，如何利用數據、技術、規則、模型、產品技術，精準識別已擬人化的網絡機器人。
以某大型票務網站威力，介紹網絡機器人立體識別與防控的技術架構和運維流程。
如何從前端、后端，規則模型及運維等方面，建設網絡機器人實時識別與防范體系。

今天我想和大家從以下幾個方面來探討：首先要談到的是網絡機器人也就是各種各樣的爬蟲所帶來的風險；在其帶來風險的同時，市場也會有識別和防護的需求，如何識別與防護網絡爬蟲？我會結合具體案例來講解；另外還有攻防對抗過程中的一些心得體會，以及將來為保證解決方案持續有效我們應該怎么做。

網絡機器人風險

這是一張過去四年的網絡流量分布圖，可以看到非人類也就是網絡機器人在互聯網上貢獻的流量是持續上升的，而這些流量覆蓋領域也各式各樣，包括航空票務、政府公示、港口物流、招聘簡歷、金融理財、社交網絡……

網絡機器人出沒，如何利用大數據技術實時識別和防護 | 硬創公開課（總結＋視頻）

這些網絡機器人所帶來的風險可以簡單劃分為幾個方面：

對票務行業來說，網絡黃牛占票大行其道，企業和用戶利益受損
「薅羊毛產業」興盛，企業營銷經費低效轉化
商業信息泄露，陷入不正當競爭
對于系統工程師來說，暴力訪問，威脅系統可用性
影響真實用戶訪問體驗
網絡資源虛耗，流量無效轉化

也正因為上述場景下網絡機器人肆虐，國家開始出臺一系列法律法規，總體可分為兩個層面：

一方面作為數據的擁有者，有責任和義務通過種種手段保障網絡數據的完整性、保密性和可用性。

另一方面從數據的爬取方來說，未經授權爬取某些數據屬于違法行為，比如未經授權讀取用戶手機通訊錄超過50條記錄，公司法人最高可獲刑3年；未經授權讀取用戶公積金社保記錄的超過5萬條的，公司法人最高可獲刑7年……

網絡機器人的識別與防護

網絡機器人即在互聯網環境中，通過自動化的程序實現對互聯網數據資源、數字資產等信息的智能化獲取，現代爬蟲有三大特征：自動化、智能化、擬人化，其可以細分為數據爬蟲、占票工具、撞庫工具、比價工具、刷單工具等。

現代爬蟲會通過模擬真人發起請求，具體模擬有三種方式：報文模擬，終端模擬，行為模擬。

而隨著攻防不斷演進，企業對抗手段也有了變化。

具體可分為以下幾個里程：

人工運維
在這個階段，企業面臨的攻擊節奏不快，網站流量不大，數據吸引力沒有廣而告之。此時網站或企業通過人工運維，持續投入人力分析流量，根據簡單規則，建立各維度訪問主體的黑庫，持續更新。
傳統信息安全
隨著流量的增加，企業自然而然開始考慮運用一些網絡安全手段，比如網絡防火墻、IPS、IDS、應用防火墻，但這些傳統防護手段對有著明顯爬蟲特征的網絡機器人有用，而隨著爬蟲愈來愈智能化、擬人化，其報文會十分接近正常人，因此這些傳統安全手法效果有限。
業務層應對
在這一階段，企業防守開始走向業務層應對，業務應用埋點邏輯，通過驗證碼、前端混淆、服務端檢測等技術，對真人與機器人進行區分。
立體式實時識別與防護
而在目前身處的這一階段，企業需要講數據、技術、規則、模型、產品、服務等一系列結合起來進行對抗。

網絡機器人出沒，如何利用大數據技術實時識別和防護 | 硬創公開課（總結＋視頻）

思路探討

事實上，永恒的安全是不可能的。攻防不斷演進是機器人防護永恒的主題，其實質是人與人，AI 與 AI 的對抗。而不管是從前端還是后端，以及風控規則模型，包括持續運維，是一個立體式的防護。

后續我們也進行了一些思考，首先數據要與場景結合，業務模式決定了模型上限。而我們需不斷通過優化算法以及特征工程訓練這一模型。這是一個無限逼近上限的過程，但我們在開始時就應將上限拔高。

另外，一些與業務場景結合在一起的技術也可以抽取出來進行訓練，比如我們在做的一些流式大數據計算、基于規則模型的智能決策、實時的數據可視化等。

從安全合規角度更要保證內部敏感數據不外泄，外圍輔助數據本地化。

問答環節：

1.目前航企遭受的爬蟲攻擊多來自哪里？

答：主要來自同行業的競爭，比如 A 航空公司利用爬蟲占據了 B 航空公司全部低價票，而 B 公司只有高價票可售，這種情況下多數用戶會選擇其他公司（如 A 公司）購票。另外在提直降代后，一些黑代理或者一些資質不全的代理，也要有一定的生財之道，所以其會通過各種爬蟲工具進行占票轉而高價出售。同時 OTA 網站之間為了獲取更多客戶也會互相爬取對方價格保證自己合理定價。

2.運用多種手段識別打擊網絡機器人，如何提升準確率？

答：這是一個很關鍵的問題，我們做這件事的目的就是為了提升識別準確率。那要如何提升準確率？我認為一定要利用人工智能來優化查準率和查全率，比如我們會基于專家規則，以此為基礎通過機器學習，加之以深度學習優化模型。

另外從場景來看，也可以采用多種不同級別的管控手段，除了封IP，也考慮加入動態的驗證碼，或者限速、限流、延遲到達等等。

3.請問是否使用了決策引擎和規則引擎？

答：是的，我們使用了決策和規則雙核引擎。

視頻回放地址：http://www.mooc.ai/open/course/413

若想獲得此次公開課完整 PPT，請關注微信公眾號宅客頻道（微信ID：letshome），回復“網絡機器人 ”。

網絡機器人出沒，如何利用大數據技術實時識別和防護 | 硬創公開課（總結＋視頻）