成年人三级片性日韩,五月天成人色在线视频导航

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

太囂張了！他竟用Python繞過了“驗證碼”

準備工作

這里我們使用 OpenCV 做圖像處理，所以需要安裝下面兩個庫：

 
 
 
   
  
  
  pip3 install opencv-python    
  
  
  pip3 install numpy

識別原理

我們采取一種有監(jiān)督式學習的方法來識別驗證碼，包含以下幾個步驟：

圖片處理：對圖片進行降噪、二值化處理。
切割圖片：將圖片切割成單個字符并保存。
人工標注：對切割的字符圖片進行人工標注，作為訓(xùn)練集。
訓(xùn)練數(shù)據(jù)：用 KNN 算法訓(xùn)練數(shù)據(jù)。
檢測結(jié)果：用上一步的訓(xùn)練結(jié)果識別新的驗證碼。

下面我們來逐一介紹每一步的過程，并給出具體的代碼實現(xiàn)。

圖片處理

先來看一下我們要識別的驗證碼是長什么樣的：

上圖可以看到，字符做了一些扭曲變換。仔細觀察，還可以發(fā)現(xiàn)圖片中間的部分添加了一些顆?；脑肼?。

我們先讀入圖片，并將圖片轉(zhuǎn)成灰度圖，代碼如下：

 
 
 
   
  
  
  import cv2   
  
  
     
  
  
  im = cv2.imread(filepath)   
  
  
  im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

經(jīng)過上面的處理，我們的彩色圖片變成了下面這樣：

將圖片做二值化處理，代碼如下：

 
 
 
   
  
  
  ret, im_inv = cv2.threshold(im_gray,127,255,cv2.THRESH_BINARY_INV)

127 是我們設(shè)定的閾值，像素值大于 127 被置成了 0，小于 127 的被置成了 255。處理后的圖片變成了這樣：

接下來，我們應(yīng)用高斯模糊對圖片進行降噪。高斯模糊的本質(zhì)是用高斯核和圖像做卷積，代碼如下：

 
 
 
   
  
  
  kernel = 1/16*np.array([[1,2,1], [2,4,2], [1,2,1]])   
  
  
  im_blur = cv2.filter2D(im_inv,-1,kernel)

降噪后的圖片如下：

上圖可以看到一些顆?；脑肼暠黄交袅?。降噪后，我們對圖片再做一輪二值化處理：

 
 
 
   
  
  
  ret, im_res = cv2.threshold(im_blur,127,255,cv2.THRESH_BINARY)

現(xiàn)在圖片變成了這樣：

好了，接下來，我們要開始切割圖片了。

切割圖片

這一步是所有步驟里最復(fù)雜的一步。我們的目標是把最開始的圖片切割成單個字符，并把每個字符保存成如下的灰度圖：

首先我們用 OpenCV 的 findContours 來提取輪廓：

 
 
 
   
  
  
  im2, contours, hierarchy = cv2.findContours(im_res, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

我們把提取的輪廓用矩形框起來，畫出來是這樣的：

可以看到，每個字符都被檢測出來了。但這只是理想情況，很多時候，相鄰字符有粘連的會被識別成同一個字符，比如像下面的情況：

要處理這種情況，我們就要對上面的圖片做進一步的分割。字符粘連會有下面幾種情況，我們逐一來看下該怎么處理。

①4 個字符被識別成 3 個字符

這種情況，對粘連的字符輪廓，從中間進行分割，代碼如下：

 
 
 
   
  
  
  result = []   
  
  
  for contour in contours:   
  
  
      x, y, w, h = cv2.boundingRect(contour)   
  
  
      if w == w_max: # w_max是所有contonur的寬度中最寬的值   
  
  
          box_left = np.int0([[x,y], [x+w/2,y], [x+w/2,y+h], [x,y+h]])   
  
  
          box_right = np.int0([[x+w/2,y], [x+w,y], [x+w,y+h], [x+w/2,y+h]])   
  
  
          result.append(box_left)   
  
  
          result.append(box_right)   
  
  
      else:   
  
  
          box = np.int0([[x,y], [x+w,y], [x+w,y+h], [x,y+h]])   
  
  
          result.append(box)

分割后，圖片變成了這樣：

②4 個字符被識別成 2 個字符

4 個字符被識別成 2 個字符有下面兩種情況：

對第一種情況，對于左右兩個輪廓，從中間分割即可。對第二種情況，將包含了 3 個字符的輪廓在水平方向上三等分。

具體代碼如下：

 
 
 
   
  
  
  result = []   
  
  
  for contour in contours:   
  
  
      x, y, w, h = cv2.boundingRect(contour)   
  
  
      if w == w_max and w_max >= w_min * 2:   
  
  
          # 如果兩個輪廓一個是另一個的寬度的2倍以上，我們認為這個輪廓就是包含3個字符的輪廓   
  
  
          box_left = np.int0([[x,y], [x+w/3,y], [x+w/3,y+h], [x,y+h]])   
  
  
          box_mid = np.int0([[x+w/3,y], [x+w*2/3,y], [x+w*2/3,y+h], [x+w/3,y+h]])   
  
  
          box_right = np.int0([[x+w*2/3,y], [x+w,y], [x+w,y+h], [x+w*2/3,y+h]])   
  
  
          result.append(box_left)   
  
  
          result.append(box_mid)   
  
  
          result.append(box_right)   
  
  
      elif w_max < w_min * 2:   
  
  
          # 如果兩個輪廓，較寬的寬度小于較窄的2倍，我們認為這是兩個包含2個字符的輪廓   
  
  
          box_left = np.int0([[x,y], [x+w/2,y], [x+w/2,y+h], [x,y+h]])   
  
  
          box_right = np.int0([[x+w/2,y], [x+w,y], [x+w,y+h], [x+w/2,y+h]])   
  
  
          result.append(box_left)   
  
  
          result.append(box_right)   
  
  
      else:   
  
  
          box = np.int0([[x,y], [x+w,y], [x+w,y+h], [x,y+h]])   
  
  
          result.append(box)

分割后的圖片如下：

③4 個字符被識別成 1 個字符

這種情況對輪廓在水平方向上做四等分即可，代碼如下：

 
 
 
   
  
  
  result = []   
  
  
  contour = contours[0]   
  
  
  x, y, w, h = cv2.boundingRect(contour)   
  
  
  box0 = np.int0([[x,y], [x+w/4,y], [x+w/4,y+h], [x,y+h]])   
  
  
  box1 = np.int0([[x+w/4,y], [x+w*2/4,y], [x+w*2/4,y+h], [x+w/4,y+h]])   
  
  
  box2 = np.int0([[x+w*2/4,y], [x+w*3/4,y], [x+w*3/4,y+h], [x+w*2/4,y+h]])   
  
  
  box3 = np.int0([[x+w*3/4,y], [x+w,y], [x+w,y+h], [x+w*3/4,y+h]])   
  
  
  result.extend([box0, box1, box2, box3])

分割后的圖片如下：

對圖片分割完成后，我們將分割后的單個字符的圖片存成不同的圖片文件，以便下一步做人工標注。

存取字符圖片的代碼如下：

 
 
 
   
  
  
  for box in result:   
  
  
      cv2.drawContours(im, [box], 0, (0,0,255),2)   
  
  
      roi = im_res[box[0][1]:box[3][1], box[0][0]:box[1][0]]   
  
  
      roistd = cv2.resize(roi, (30, 30)) # 將字符圖片統(tǒng)一調(diào)整為30x30的圖片大小   
  
  
      timestamp = int(time.time() * 1e6) # 為防止文件重名，使用時間戳命名文件名   
  
  
      filename = "{}.jpg".format(timestamp)   
  
  
      filepath = os.path.join("char", filename)   
  
  
      cv2.imwrite(filepath, roistd)

字符圖片保存在名為 char 的目錄下面，這個目錄里的文件大致是長這樣的（文件名用時間戳命名，確保不會重名）：

接下來，我們開始標注數(shù)據(jù)。

人工標注

這一步是所有步驟里最耗費體力的一步了。為節(jié)省時間，我們在程序里依次打開 char 目錄中的每張圖片，鍵盤輸入字符名，程序讀取鍵盤輸入并將字符名保存在文件名里。

代碼如下：

 
 
 
   
  
  
  files = os.listdir("char")   
  
  
  for filename in files:   
  
  
      filename_ts = filename.split(".")[0]   
  
  
      patt = "label/{}_*".format(filename_ts)   
  
  
      saved_num = len(glob.glob(patt))   
  
  
      if saved_num == 1:   
  
  
          print("{} done".format(patt))   
  
  
          continue   
  
  
      filepath = os.path.join("char", filename)   
  
  
      im = cv2.imread(filepath)   
  
  
      cv2.imshow("image", im)   
  
  
      key = cv2.waitKey(0)   
  
  
      if key == 27:   
  
  
          sys.exit()   
  
  
      if key == 13:   
  
  
          continue   
  
  
      char = chr(key)   
  
  
      filename_ts = filename.split(".")[0]   
  
  
      outfile = "{}_{}.jpg".format(filename_ts, char)   
  
  
      outpath = os.path.join("label", outfile)   
  
  
      cv2.imwrite(outpath, im)

這里一共標注了大概 800 張字符圖片，標注的結(jié)果存在名為 label 的目錄下，目錄下的文件是這樣的（文件名由原文件名+標注名組成）：

接下來，我們開始訓(xùn)練數(shù)據(jù)。

訓(xùn)練數(shù)據(jù)

首先，我們從 label 目錄中加載已標注的數(shù)據(jù)：

 
 
 
   
  
  
  filenames = os.listdir("label")   
  
  
  samples = np.empty((0, 900))   
  
  
  labels = []   
  
  
  for filename in filenames:   
  
  
      filepath = os.path.join("label", filename)   
  
  
      label = filename.split(".")[0].split("_")[-1]   
  
  
      labels.append(label)   
  
  
      im = cv2.imread(filepath, cv2.IMREAD_GRAYSCALE)   
  
  
      sample = im.reshape((1, 900)).astype(np.float32)   
  
  
      samples = np.append(samples, sample, 0)   
  
  
  samples = samples.astype(np.float32)   
  
  
  unique_labels = list(set(labels))   
  
  
  unique_ids = list(range(len(unique_labels)))   
  
  
  label_id_map = dict(zip(unique_labels, unique_ids))   
  
  
  id_label_map = dict(zip(unique_ids, unique_labels))   
  
  
  label_ids = list(map(lambda x: label_id_map[x], labels))   
  
  
  label_ids = np.array(label_ids).reshape((-1, 1)).astype(np.float32)

接下來，訓(xùn)練我們的模型：

 
 
 
   
  
  
  model = cv2.ml.KNearest_create()   
  
  
  model.train(samples, cv2.ml.ROW_SAMPLE, label_ids)

訓(xùn)練完，我們用這個模型來識別一下新的驗證碼。

檢測結(jié)果

下面是我們要識別的驗證碼：

對于每一個要識別的驗證碼，我們都需要對圖片做降噪、二值化、分割的處理（代碼和上面的一樣，這里不再重復(fù)）。

假設(shè)處理后的圖片存在變量 im_res 中，分割后的字符的輪廓信息存在變量 boxes 中，識別驗證碼的代碼如下：

 
 
 
   
  
  
  for box in boxes:   
  
  
      roi = im_res[box[0][1]:box[3][1], box[0][0]:box[1][0]]   
  
  
      roistd = cv2.resize(roi, (30, 30))   
  
  
      sample = roistd.reshape((1, 900)).astype(np.float32)   
  
  
      ret, results, neighbours, distances = model.findNearest(sample, k = 3)   
  
  
      label_id = int(results[0,0])   
  
  
      label = id_label_map[label_id]   
  
  
      print(label)

運行上面的代碼，可以看到程序輸出：

圖片中的驗證碼被成功地識別出來。我們測試了下識別的準確率，取 100 張驗證碼圖片（存在 test 目錄下）進行識別，識別的準確率約為 82%。

看到有人說用神經(jīng)網(wǎng)絡(luò)識別驗證碼，準確率可以達到 90% 以上，下次有機會可以嘗試一下。

完整代碼已上傳 GitHub，所有訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)、已標注圖片都已上傳百度網(wǎng)盤，后臺回復(fù)“驗證碼”可獲取地址。

網(wǎng)頁名稱：太囂張了！他竟用Python繞過了“驗證碼”
文章地址：http://m.5511xx.com/article/dpheeoe.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

其他資訊