问题：

如何使用tesseract ocr仅在图像中提取蓝色文本

盖成弘

2023-03-14

我想提取只有蓝色文本图像uisng tesseract ocr.请帮助我关于这一点。

我试过的基本代码：

导入PIL. Image导入cv导入pytesseract， remy_image=PIL. Image.open（r"C：\User\sony\Desktop\Cap_sample\MicrosoftTeams-Image（4）. png"）pytesseract.pytesseract.tesseract_cmd=（r'C：\Program Files\Tesseract-OCR\tesseract.exe'）my_image_text=<--plhd-3/>_to_string（my_image）print（my_image_text）

共有1个答案

潘国源

2023-03-14

一个可能的解决方案是使用一个掩码来获得只有蓝色的图像，然后提取文本

试着使用类似

blueLower = np.array([100, 67, 0], dtype = "uint8")
blueUpper = np.array([255, 128, 50], dtype = "uint8")
blue = cv2.inRange(img, blueLower, blueUpper)

这将得到一个蒙版的蓝色是存在于图像中，然后可能使用Tesseract上

类似资料：

如何在PHP中使用scandir仅获取图像？

问题内容：有没有什么办法让仅与扩展的图像，，等同时使用问题答案：您可以使用如果您不要求区分大小写，则可以将a 与a组合使用，或将结果传递给to，并使用回调过滤所有不需要的扩展名。是否使用，还是获取扩展名取决于您。
如何从PDF文件提取图像？

问题内容：我需要从服务器上的PDF文件中提取所有图像。我不想要PDF页面，只想要原始尺寸和分辨率的图像。如何使用Perl，PHP或任何其他基于UNIX的应用程序（我将使用PHP的exec函数调用它）来做到这一点？问题答案： pdfimages就是这样做的。它是poppler- utils和xpdf-utils软件包的一部分。从联机帮助页： Pdfimages将可移植文档格式（PDF）文件中
使用VBA从Word文档中提取图像

我需要循环一些word文档，并从word文档中提取图像，并将其保存在单独的文件夹中。我尝试过将它们保存为超文本标记语言文档的方法，但它不太适合我的需求。现在，我使用inlineshapes对象循环浏览图像，然后将它们复制粘贴到publisher文档上，然后将它们保存为图像。但是，在运行脚本时，我会遇到运行时自动化错误。对于使用Publisher运行时库，我尝试了早期绑定和晚期绑定，但都遇到了错误
从PDF图像中提取文本

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。我想做的是从这个PDF中提取文本。这不是“第一代”pdf，因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。 PDFBox的iText中是否有允许检索此数据的功能？如果可能的话，我正在尝试避免对图像进行OCR。我希望IText或PDFBox中有一些内置的东西可以做到这一点。请注意，我不是在谈
如何在使用FFMPEG时提高图像导出/提取速度？

我正在用fps参数提取mp4视频（video fps：25）中的所有帧，使用FFMPEG。线程计数已更改，但速度未更改，，使用和，也没有。
如何使用Tesseract[closed]获取图像文本

在预处理之后，这就是我如何将它发送到Tesseract OCR 但是OCR'ed是空的。编辑：此图像是PDF的一部分。将PDF转换为jpg，然后再次加载，然后通过给出BB坐标来裁剪此部分。但是它打印的OCR'ed输出仍然关闭：

如何使用tesseract ocr仅在图像中提取蓝色文本

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档