前言
最近在研究验证码相关的操作,所以准备记录下安装以及使用的过程。虽然之前对验证码的破解有所了解的,但是之前都是简单使用之后就不用了,没有记录一个详细的过程,所以后面再用起来也要重新从网上查找资料比较麻烦,所以这里准备对研究过程的关键点做一个记录。
首先这篇文章,主要是研究图形验证码,后期会不定时拓展内容。
在网上查了很多版本的图形验证码识别,目前看到最多的两个模块是pytesseract和tesserocr,但是因为我这里安装tesserocr的时候各种出错,所以最终我锁定了使用pytesseract。
那么接下来,就记录下安装以及使用过程。这里的系统环境是mac os 10.14.
安装tesserocr
brew install tesserocr
因为pytesseract依赖于tesserocr所以首先需要先安装tesserocr这个软件。接下来就是安装python相关的包
安装python所需要的包
pip3 install pytesseract pip3 install pillow
安装pytesseract是ocr识别图片上的字,因为验证码的识别难度高低不同,所以在这个过程中需要对图片做一定的处理,这就需要使用处理图片的模块pillow。
一个简单的demo
import pytesseract from PIL import Image import os def binarizing(img, threshold): """传入image对象进行灰度、二值处理""" pixdata = img.load() w, h = img.size # 遍历所有像素,大于阈值的为黑色 for y in range(h): for x in range(w): if pixdata[x, y] < threshold: pixdata[x, y] = 0 else: pixdata[x, y] = 255 return img _temp = os.path.dirname(__file__) file_path = os.path.join(_temp, 'code2.jpg') print("file_path", file_path) image = Image.open(file_path) image = image.convert('L') threshold = 157 table = [] # 接下来是二值化处理 # 遍历所有像素,大于阈值的为黑色,threshold是阀值 image = binarizing(image, threshold) result = pytesseract.image_to_string(image) print(result)
示例中的图片
需要用到的图像知识:
对于彩色图像,不管其图像格式是PNG,还是BMP,或者JPG,在PIL中,使用Image模块的open()函数打开后,返回的图像对象的模式都是“RGB”。而对于灰度图像,不管其图像格式是PNG,还是BMP,或者JPG,打开后,其模式为“L”也就是我们说的灰度化的一个操作。除此之外,还有其他的模式,不过我们在处理验证码的时候是将其转为灰度模式,所以就不强调其他的模式了。
模式“L”
模式“L”为灰色图像,它的每个像素用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度。在PIL中,从模式“RGB”转换为“L”模式是按照下面的公式转换的:
L = R * 299/1000 + G * 587/1000+ B * 114/1000
通过灰度化之后的图片变为
灰度化我们还要对其进行二值化操作
二值化操作
二值化故名思议,就是整个图像所有像素只有两个值可以选择,一个是黑(灰度为0),一个是白(灰度为255)。二值化的好处就是将图片上的有用信息和无用信息区分开来,比如二值化之后的验证码图片,验证码像素为黑色,背景和干扰点为白色,这样后面对验证码像素处理的时候就会很方便。对于简单的图形验证码,到这里基本上就够了,但是如果有干扰线,还要进行除干扰线的操作。
对应的代码为
def binarizing(img, threshold): """传入image对象进行灰度、二值处理""" pixdata = img.load() w, h = img.size # 遍历所有像素,大于阈值的为黑色 for y in range(h): for x in range(w): if pixdata[x, y] < threshold: pixdata[x, y] = 0 #小于阀值设为0,0是黑色 else: pixdata[x, y] = 255 0 #大于阀值设为255,255是白色 return img
此时的图片效果为
可以看到图片变得锐化了很多,这个时候再去识别就比较好识别了。
去干扰线
常见的4邻域、8邻域算法。所谓的X邻域算法,可以参考手机九宫格输入法,按键5为要判断的像素点,4邻域就是判断上下左右,8邻域就是判断周围8个像素点。如果这4或8个点中255的个数大于某个阈值则判断这个点为噪音,阈值可以根据实际情况修改。
使用cv2处理
除此之外还可以使用cv2模块进行处理。
安装
pip install opencv-python
代码示例
# -*- coding: utf-8 -*- import cv2 import numpy as np import os _temp = os.path.dirname(__file__) file_path = os.path.join(_temp, 'code2.jpg') def remove_noise(img, k=4): ###8领域过滤 img2 = img.copy() # img处理数据,k过滤条件 w, h = img2.shape def get_neighbors(img3, r, c): count = 0 for i in [r - 1, r, r + 1]: for j in [c - 1, c, c + 1]: if img3[i, j] > 10: # 纯白色 count += 1 return count # 两层for循环判断所有的点 for x in range(w): for y in range(h): if x == 0 or y == 0 or x == w - 1 or y == h - 1: img2[x, y] = 255 else: n = get_neighbors(img2, x, y) # 获取邻居数量,纯白色的邻居 if n > k: img2[x, y] = 255 return img2 img = cv2.imread(file_path) # 将图片灰度化处理,降维,加权进行灰度化c gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) t, gray2 = cv2.threshold(gray, 200, 255, cv2.THRESH_BINARY) cv2.imshow('threshold', gray2) result = remove_noise(gray2) cv2.imshow('8neighbors', result) cv2.waitKey(0) #cv2.destroyAllWindows()
总结
以上所述是小编给大家介绍的mac使用python识别图形验证码功能,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对小牛知识库网站的支持!如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
本文向大家介绍.Net Core 下使用ZKWeb.System.Drawing实现验证码功能(图形验证码),包括了.Net Core 下使用ZKWeb.System.Drawing实现验证码功能(图形验证码)的使用技巧和注意事项,需要的朋友参考一下 本文介绍.Net Core下用第三方ZKWeb.System.Drawing实现验证码功能。 通过测试的系统: Windows 8.1 64bit
本文向大家介绍Python网站验证码识别,包括了Python网站验证码识别的使用技巧和注意事项,需要的朋友参考一下 0x00 识别涉及技术 验证码识别涉及很多方面的内容。入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足。 验证码图像处理 验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵。 读取图片 图片降噪
本文向大家介绍详解Python验证码识别,包括了详解Python验证码识别的使用技巧和注意事项,需要的朋友参考一下 以前写过一个刷校内网的人气的工具,Java的(以后再也不行Java程序了),里面用到了验证码识别,那段代码不是我自己写的:-) 校内的验证是完全单色没有任何干挠的验证码,识别起来比较容易,不过从那段代码中可以看到基本的验证码识别方式。这几天在写一个程序的时候需要识别验证码,因为程序是
本文向大家介绍Python验证码识别的方法,包括了Python验证码识别的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python验证码识别的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的Python程序设计有所帮助。
本文向大家介绍Python基于内置库pytesseract实现图片验证码识别功能,包括了Python基于内置库pytesseract实现图片验证码识别功能的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了Python基于内置库pytesseract实现图片验证码识别功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 环境准备: 1、安装
本文向大家介绍python 识别登录验证码图片功能的实现代码(完整代码),包括了python 识别登录验证码图片功能的实现代码(完整代码)的使用技巧和注意事项,需要的朋友参考一下 在编写自动化测试用例的时候,每次登录都需要输入验证码,后来想把让python自己识别图片里的验证码,不需要自己手动登陆,所以查了一下识别功能怎么实现,做一下笔记。 首选导入一些用到的库,re、Image、pytesser