关于pdfplumber和pdfminer不兼容的问题解决方案

司徒焕

2023-12-01

本人在实现有关pdf的读取任务当中，由于各类pdf文件的格式有所差异，因此使用了各种不同的pdf读取方式，但程序一直报错找不到特定的文件或是文件内缺失特定的函数结构。经过反复核查发现是pdfplumber和pdfminer不兼容的问题。解决方案如下：

1、直接手动删除自己的程序环境下的Lib\site-packages内的pdfminer、pdfplumber以及pdfminer3k文件夹。

2、安装pdfplumber库，pip install pdfplumber。

3、再次回到Lib\site-packages内，将安装生成的pdfminer文件夹更名为任意的新名称，例如：pdfminerpymupdf。

4、进入更名后的pdfminer文件夹，将内部所有.py文件中的 from pdfminer import xxx 中的pdfminer替换为新名称。PS：这一步也可以在调试程序时根据报错文件定位进行定向修改。

5、安装pdfminer库，pip install pdfminer3k。Finish

最后说明一下，对于一些比较特殊的pdf文档，内容无论用哪种pdf读取方式读入，都会只显示一部分内容或者根本无法读取，这时可以考虑通过pdf转image的方式先进行转换，再利用图像文字识别技术对其中的内容进行读取。