最近对Python验证码的处理产生了兴趣,就从网上找了一个最简单的源码。
但是from pytesser import * 这一步是遇到了麻烦,在说之前先介绍下我的Python环境。
我用的是32位的Canopy(canopy-1.5.5-win-32.msi),这个已经集成了很多重要的Python库。
from PIL import Image
from pytesser import *
pytresser主要的功能就是将已经经过处理的验证码图片转为文本数据。调用的是image_to_string()方法。
开始。
首先下载pytesser以及其依赖插件下载地址:链接: http://pan.baidu.com/s/1i3zgpjJ 密码: ueyy
解压后打开,把pytesser_v0.0.1.zip中的文件全部解压到一个新文件夹中。
文件夹名称随意,但是后文还有用。不妨设置文件夹名称为pytesser_v0.0.1。
再把该文件夹移动到Canopy的包文件夹下,即:....\Lib\site-packages
同时在该目录....\Lib\site-packages下新建文件pytesser.pth,这个文件的内容就是:pytesser_v0.0.1。(即刚才pytesser文件夹名称。)
这时打开....\Lib\site-packages\pytesser_v0.0.1文件夹,对pytesser.py文件进行修改。
找到import Image将其更改为from PIL import Image即可(据说是因为我们安装的Canopy里面的PIL不是原版的PIL,而是其代替版pillow所以要把这个改一下)。
本来到这里就已经可以完事儿了。
但是pytresser依赖另一个东西tresseract。
打开最开始百度云下载的“pytesser及其依赖插件”,里面有tesseract-ocr-setup-3.02.02.exe。
运行后,安装。打开安装目录找到其中的tesseract文件夹。
然后用它替换掉....\Lib\site-packages\pytesser_v0.0.1目录下的tesseract文件夹。
重启Canopy即可。