当前位置: 首页 > 面试题库 >

OpenCV-Python中的简单数字识别OCR

越嘉石
2023-03-14
问题内容

我正在尝试在OpenCV-Python(cv2)中实现“数字识别OCR”。它仅用于学习目的。我想学习OpenCV中的KNearest和SVM功能。

我每个数字有100个样本(即图像)。我想和他们一起训练。

letter_recog.pyOpenCV示例附带一个示例。但是我仍然不知道如何使用它。我不了解样本,回复等。此外,它首先会加载txt文件,而我首先并不了解。

稍后进行搜索时,我可以在cpp样本中找到letter_recognitiontion.data。我用它并在letter_recog.py模型中为cv2.KNearest编写了一个代码(仅用于测试):

import numpy as np
import cv2

fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]

model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()

它给了我一个大小为20000的数组,我不知道它是什么。

问题:

1)什么是letter_recognition.data文件?如何从我自己的数据集中构建该文件?

2)results.reval()代表什么?

3)我们如何使用letter_recognition.datahtml" target="_blank">文件(KNearest或SVM)编写一个简单的数字识别工具?


问题答案:

好吧,我决定对我的问题进行锻炼以解决上述问题。我想要的是使用OpenCV中的KNearest或SVM功能实现简单的OCR。以下是我的工作方式。(这只是为了学习如何将KNearest用于简单的OCR目的)。

1)我的第一个问题是有关OpenCV示例随附的letter_recognition.data文件的信息。我想知道该文件中的内容。

它包含一个字母以及该字母的16个功能。

并this SOF帮助我找到了它。本文介绍了这16个功能Letter Recognition Using Holland-Style Adaptive Classifiers。(尽管我不了解最后的一些功能)

2)由于我知道,如果不了解所有这些功能,就很难做到这一点。我尝试了其他一些论文,但是对于初学者来说都有些困难。

So I just decided to take all the pixel values as my features. (我并不担心准确性或性能,我只是希望它能够工作,至少以最低的准确性)

我为训练数据拍摄了下图:

(我知道训练数据的数量较少。但是,由于所有字母的字体和大小都相同,所以我决定尝试一下)。

为了准备训练数据,我在OpenCV中编写了一个小代码。它执行以下操作:

  1. 它加载图像。
  2. 选择数字(显然是通过轮廓查找并在字母的面积和高度上施加约束来避免错误检测)。
  3. 在一个字母周围绘制边界矩形,然后等待key press manually。这次我们自己按对应于框中字母的数字键。
  4. 一旦按下相应的数字键,它将将该框的大小调整为10x10,并在一个数组(此处为样本)中保存100个像素值,在另一个数组中(此处为响应)保存相应的手动输入数字。
  5. 然后将两个数组保存在单独的txt文件中。
    手动数字分类结束时,火车数据(train.png)中的所有数字都是由我们自己手动标记的,图像如下所示:

以下是我用于上述目的的代码(当然,不是很干净):

import sys

import numpy as np
import cv2

im = cv2.imread('pitrain.png')
im3 = im.copy()

gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)

#################      Now finding Contours         ###################

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

samples =  np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)

        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            cv2.imshow('norm',im)
            key = cv2.waitKey(0)

            if key == 27:  # (escape to quit)
                sys.exit()
            elif key in keys:
                responses.append(int(chr(key)))
                sample = roismall.reshape((1,100))
                samples = np.append(samples,sample,0)

responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"

np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)

现在我们进入培训和测试部分。

为了测试零件,我使用了下面的图片,该图片与我训练过的字母具有相同的类型。

对于培训,我们执行以下操作:

  1. 加载我们之前已经保存的txt文件
  2. 创建一个我们正在使用的分类器的实例(这里是KNearest)
  3. 然后我们使用KNearest.train函数来训练数据

出于测试目的,我们执行以下操作:

  1. 我们加载用于测试的图像
  2. 较早处理图像并使用轮廓法提取每个数字
  3. 为其绘制一个边界框,然后将其大小调整为10x10,并将其像素值存储在数组中,如之前所做的那样。
  4. 然后,我们使用KNearest.find_nearest()函数查找与我们给出的项目最接近的项目。(如果幸运,它将识别正确的数字。)

我在下面的单个代码中包括了最后两个步骤(培训和测试):

import cv2
import numpy as np

#######   training part    ############### 
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))

model = cv2.KNearest()
model.train(samples,responses)

############################# testing part  #########################

im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)
        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            roismall = roismall.reshape((1,100))
            roismall = np.float32(roismall)
            retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
            string = str(int((results[0][0])))
            cv2.putText(out,string,(x,y+h),0,1,(0,255,0))

cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)

它起作用了,下面是我得到的结果:

在这里,它以100%的精度工作。我认为这是因为所有数字都是相同的种类和大小。

但是无论如何,对于初学者来说这是一个不错的开始(我希望如此)。



 类似资料:
  • 本文向大家介绍kNN算法python实现和简单数字识别的方法,包括了kNN算法python实现和简单数字识别的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了kNN算法python实现和简单数字识别的方法。分享给大家供大家参考。具体如下: kNN算法算法优缺点: 优点:精度高、对异常值不敏感、无输入数据假定 缺点:时间复杂度和空间复杂度都很高 适用数据范围:数值型和标称型 算法的思路:

  • 本文向大家介绍简单的Python人脸识别系统,包括了简单的Python人脸识别系统的使用技巧和注意事项,需要的朋友参考一下 案例一 导入图片 思路: 1.导入库 2.加载图片 3.创建窗口 4.显示图片 5.暂停窗口 6.关闭窗口 案例二 在图片上添加人脸识别 思路: 1.导入库 2.加载图片 3.加载人脸模型 4.调整图片灰度 5.检查人脸 6.标记人脸 7.创建窗口 8.显示图片 9.暂停窗口

  • 本文向大家介绍python opencv pytesseract 验证码识别的实现,包括了python opencv pytesseract 验证码识别的实现的使用技巧和注意事项,需要的朋友参考一下 一、环境配置 需要 pillow 和 pytesseract 这两个库,pip install 安装就好了。 安装好Tesseract-OCR.exe pytesseract 库的配置:搜索找到pyt

  • 问题内容: 我目前正在从事一个涉及Android光学字符识别的项目,确实需要一些在该领域有经验的人的指导。 有人告诉我首先要使用Android设置OpenCV(使用Android 设置OpenCv)并从那里开始。从那时起,我建立了OpenCV,并使其具有所有示例(OpenCV android示例 )和教程。 我的问题是我无法从这里找到明确的方向,我在这里找到了一个相关问题,其答案指向了教程,但是我

  • 问题内容: 我想识别列表中的连续数字组,以便: 返回值: 并且想知道实现此目的的最佳方法是什么(特别是如果Python内置了某些东西)。 编辑:注意,我最初忘记提及个人数字应作为个人数字而不是范围返回。 问题答案: 是在4.0版中添加的。 演示版 应用此工具,我们将生成一个生成器函数来查找连续数字的范围。 所述源执行模拟一个经典配方(由@Nadia Alramli所证明)。 注意:more_ite

  • 本文向大家介绍python使用opencv进行人脸识别,包括了python使用opencv进行人脸识别的使用技巧和注意事项,需要的朋友参考一下 环境 ubuntu 12.04 LTS python 2.7.3 opencv 2.3.1-7 安装依赖 示例代码 转换效果 原图: 转换后 使用感受 对于大部分图像来说,只要是头像是正面的,没有被阻挡,识别基本没问题,准确性还是很高的。 识别效率有点低,