新聞中心
研究人員提出基于機器學習的CAPTCHA識別器,可以識別94.4%的暗網(wǎng)CAPTCHA。

當前,網(wǎng)絡攻擊和數(shù)據(jù)泄露等網(wǎng)絡犯罪數(shù)量指數(shù)級增長。因此,使暗網(wǎng)變得更加透明對于針對性的網(wǎng)絡攻擊防御具有重要意義。研究人員想要創(chuàng)建一個將網(wǎng)絡威脅情報流水線化處理的系統(tǒng),這就需要系統(tǒng)能夠識別當前需要手動識別的CAPTCHA驗證碼。
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自動區(qū)分計算機和人類的圖靈測試)的目的是區(qū)分計算機和人類的一種程序算法,是一種區(qū)分用戶是計算機和人的計算程序,這種程序必須能生成并評價人類能很容易通過但計算機卻通不過的測試。
DW-GAN
暗網(wǎng)CAPTCHAs
為了保護暗網(wǎng)網(wǎng)站免受DDoS攻擊等的威脅,當前暗網(wǎng)網(wǎng)站在登錄頁都使用了CAPTCHA。而且這些CAPTCHA都是定制的,使得開發(fā)一個高準確率的CAPTCHA識別器非常困難。因此從暗網(wǎng)市場和論壇自動化地收集網(wǎng)絡威脅情報都變得非常困難和昂貴。
DW-GAN方法
為解決這一問題,研究人員提出一種基于機器學習方法的CAPTCHA識別器——DW-GAN。與近年來基于人工智能方法的CAPTCHA識別器方法不同,DW-GAN 使用GAN來去除背景噪聲,使用增強的字母分割算法來處理可變字符長度的CAPTCHA圖像。
圖 邊界追蹤與區(qū)間識別
識別器可以通過去除圖像噪聲、識別字母之間的邊界、將內(nèi)容分割為單個字母的形式來區(qū)分字母與數(shù)字。
圖 去除CAPTCHA噪聲和分割字母
因此,CAPTCHA的大小并不影響識別器的有效性,尤其是識別3次的累計性能方面。不同CAPTCHA大小的識別準確率如下圖所示:
圖 不同CAPTCHA大小的識別準確率
從字符識別方面來看,識別器使用多個本地區(qū)域提取的樣本來識別線、邊等精細化特征,因此不會受到字符旋轉、字體大小變化、顏色混合等的影響。
圖 不同字體的數(shù)據(jù)樣本
現(xiàn)實場景測試
研究人員對DW-GAN方法在不同數(shù)據(jù)集上進行了測試,其中包括在現(xiàn)實場景Yellow Brick的測試。研究人員從Yellow Brick收集了1831個非法產(chǎn)品,其中有286個網(wǎng)絡安全相關的項目,包括102個竊取的信用卡、131個竊取的賬戶、9個偽造的掃描文件、44個黑客工具和1223條毒品相關的信息。
圖 在Yellow Brick市場對數(shù)據(jù)集進行測試
在DW-GAN的幫助下,對這1831個情報信息的數(shù)據(jù)花費; 5個小時。其中加載每個新頁面的HTTP請求花費8.8秒,因此發(fā)起1831個頁面花費了268.5秒,利用DW-GAN破解和識別CAPTCHA花費18.6秒/個。
總體來看,DW-GAN可以在不超過3次嘗試的情況下破解CAPTCHA,破解1831個產(chǎn)品頁面的CAPTCHA驗證碼花費了76分鐘。
與其他基于機器學習的驗證碼識別器的性能對比如下:
圖 其他基于機器學習的驗證碼識別器的性能對比
相關研究成果發(fā)表在期刊ACM Transactions on Management Information Systems上,DW-GAN代碼也上傳到了GitHub,參見:https://github.com/johnnyzn/DW-GAN
論文下載地址:https://arxiv.org/pdf/2201.02799.pdf
本文翻譯自:https://www.bleepingcomputer.com/news/security/researchers-develop-captcha-solver-to-aid-dark-web-research/如若轉載,請注明原文地址。
新聞標題:CAPTCHA識別器可識別94.4%的暗網(wǎng)CAPTCHA
本文來源:http://m.5511xx.com/article/dhdoeio.html


咨詢
建站咨詢
