当前位置: 首页 > 知识库问答 >
问题:

使用PyteSeract执行OCR时出错

韩弘壮
2023-03-14

我想用pytesseract。这是我的密码。

import pytesseract 
from pdf2image import convert_from_path 

PDF_file = 'file.pdf'
text = '' 
pages = convert_from_path(PDF_file, 500)
pageText = str(((pytesseract.image_to_string(pages[0])))) 

结果我得到了这个错误

回溯(最后一次调用):文件“C:\Users\user\AppData\Local\Programs\Python 38-32\lib\site packages\pdf2image\pdf2image.py”,第409行,在pdfinfo\u from_path proc=Popen(命令,env=env,stdout=PIPE,stderr=PIPE)文件“C:\Users\user\AppData\Local\Programs\Python\Python 38-32\lib\subprocess.py”,init self中的第854行_执行子进程(args,executable,preexec\u fn,close\u fds,文件“C:\Users\user\AppData\Local\Programs\Python\Python38-32\lib\subprocess.py”,第1307行,在执行子进程hp,ht,pid,tid=\u winapi.CreateProcess(可执行文件,args,FileNotFoundError:[WinError 2]系统找不到指定的文件

在处理上述异常期间,发生了另一个异常:

回溯(最近一次调用):文件“C:\Users\user\Desktop\projects\pdfparser\pdftest.py”,第13行,pages=convert\u from\u path(PDF\u文件,500)文件“C:\Users\user\AppData\Local\Programs\Python38-32\lib\site packages\pdf2image\pdf2image.py”,第89行,convert\u from\u from\u path(pdf_path,userpw,poppler_path=poppler_path)[“Pages”]文件“C:\Users\user\AppData\Local\Programs\Python\Python38-32\lib\site packages\pdf2image\pdf2image.py”,第430行,在pdfinfo__中,从_路径引发PdfinFoNotInstallerRor(PdfinImage.exceptions.PdfinFoNotInstallerRor:无法获取页面计数。poppler是否已安装并在路径中?

共有1个答案

崔棋
2023-03-14

正如许多评论已经指出的,错误消息

PdfinFoNotInstallerRor(pdf2image.exceptions.PdfinFoNotInstallerRor:无法获取页面计数。是否已安装poppler并在路径中?

准确地告诉你哪里出了问题:波普勒没有安装。请参考自述以获得那边的帮助。

您可以看到,pdf2Image只是围绕pdftoppm命令行实用程序的包装器。在Linux它是默认安装的,所以你不需要费心与它,但在Windows上它不是。

 类似资料:
  • 我正在尝试从图像中提取文本。目前我得到的输出是空字符串。以下是我的pytesseract代码,尽管我也对Keras OCR持开放态度:- 我不确定如何使用svg图像,所以我将它们转换为png。下面是一些示例图像:- 编辑1 (2021-05-19):我可以使用cairosvg将svg转换为png。仍然无法读取验证码文本 编辑2(2021-05-20):Keras OCR也不会为这些图像返回任何内容

  • 我已经在我的系统中安装了python、pip和selenium,我正在基本站点上测试一个示例代码。 代码: 如何解决此问题?

  • 第一个类运行成功,但第二个类失败与错误: “org.testng.TestNGException:无法调用public void TestScripts.NewAccountCreation.AccountCreation1():将其设为静态或向类中添加无参数构造函数” 如果我添加非参数构造函数,我将得到空指针异常。 我使用PageFactory来设计我的测试用例。 Eclipse版本:开普勒 T

  • 我用的是Mac OS优胜美地。我已经在eclipse中准备好了项目设置,构建路径中有libtesseract302.dll。但是当我运行主类时,它会抛出一个错误 仅供参考- 我已经按照这里指定的步骤执行了一些测试来修复这个问题,但它仍然会给我带来一个错误。 null

  • 我有HTTPS web服务。我可以使用wsimport生成java类,但当我调用该服务时,我收到以下异常: 调用服务的类如下所示: 有人能帮忙吗。提前谢谢你。

  • 我正在尝试使用spring xd执行pig代码段,但不能这样做。我使用以下命令创建了一个作业 PigTest作业定义在spring xd模块/作业目录中定义如下 已成功创建作业,但部署失败。日志文件如下所示: null