当前位置: 首页 > 知识库问答 >
问题:

如何使用tesseract ocr仅在图像中提取蓝色文本

盖成弘
2023-03-14

我想提取只有蓝色文本图像uisng tesseract ocr.请帮助我关于这一点。

我试过的基本代码:

导入PIL. Image导入cv导入pytesseract, remy_image=PIL. Image.open(r"C:\User\sony\Desktop\Cap_sample\MicrosoftTeams-Image(4). png")pytesseract.pytesseract.tesseract_cmd=(r'C:\Program Files\Tesseract-OCR\tesseract.exe')my_image_text=<--plhd-3/>_to_string(my_image)print(my_image_text)

共有1个答案

潘国源
2023-03-14

一个可能的解决方案是使用一个掩码来获得只有蓝色的图像,然后提取文本

试着使用类似

blueLower = np.array([100, 67, 0], dtype = "uint8")
blueUpper = np.array([255, 128, 50], dtype = "uint8")
blue = cv2.inRange(img, blueLower, blueUpper)

这将得到一个蒙版的蓝色是存在于图像中,然后可能使用Tesseract上

 类似资料:
  • 问题内容: 有没有什么办法让仅与扩展的图像,,等同时使用 问题答案: 您可以使用 如果您不要求区分大小写,则可以将a 与a组合使用, 或 将结果传递给to,并使用回调过滤所有不需要的扩展名。是否使用,还是获取扩展名取决于您。

  • 问题内容: 我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面,只想要原始尺寸和分辨率的图像。 如何使用Perl,PHP或任何其他基于UNIX的应用程序(我将使用PHP的exec函数调用它)来做到这一点? 问题答案: pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。 从联机帮助页: Pdfimages将可移植文档格式(PDF)文件中

  • 我需要循环一些word文档,并从word文档中提取图像,并将其保存在单独的文件夹中。我尝试过将它们保存为超文本标记语言文档的方法,但它不太适合我的需求。 现在,我使用inlineshapes对象循环浏览图像,然后将它们复制粘贴到publisher文档上,然后将它们保存为图像。但是,在运行脚本时,我会遇到运行时自动化错误。对于使用Publisher运行时库,我尝试了早期绑定和晚期绑定,但都遇到了错误

  • 假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。 我想做的是从这个PDF中提取文本。这不是“第一代”pdf,因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能?如果可能的话,我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。 请注意,我不是在谈

  • 我正在用fps参数提取mp4视频(video fps:25)中的所有帧,使用FFMPEG。 线程计数已更改,但速度未更改, ,使用和,也没有。

  • 在预处理之后,这就是我如何将它发送到Tesseract OCR 但是OCR'ed是空的。 编辑: 此图像是PDF的一部分。将PDF转换为jpg,然后再次加载,然后通过给出BB坐标来裁剪此部分。 但是它打印的OCR'ed输出仍然关闭: