关于pdfplumber和pdfminer不兼容的问题解决方案
本人在实现有关pdf的读取任务当中,由于各类pdf文件的格式有所差异,因此使用了各种不同的pdf读取方式,但程序一直报错找不到特定的文件或是文件内缺失特定的函数结构。经过反复核查发现是pdfplumber和pdfminer不兼容的问题。解决方案如下:
1、直接手动删除自己的程序环境下的Lib\site-packages内的pdfminer、pdfplumber以及pdfminer3k文件夹。
2、安装pdfplumber库,pip install pdfplumber
。
3、再次回到Lib\site-packages内,将安装生成的pdfminer文件夹更名为任意的新名称,例如:pdfminerpymupdf。
4、进入更名后的pdfminer文件夹,将内部所有.py文件中的 from pdfminer import xxx 中的pdfminer替换为新名称。PS:这一步也可以在调试程序时根据报错文件定位进行定向修改。
5、安装pdfminer库,pip install pdfminer3k
。Finish
最后说明一下,对于一些比较特殊的pdf文档,内容无论用哪种pdf读取方式读入,都会只显示一部分内容或者根本无法读取,这时可以考虑通过pdf转image的方式先进行转换,再利用图像文字识别技术对其中的内容进行读取。