目录
with open(pdfpath,"r") as fp:
PdfReadWarning: PdfFileReader stream/file object is not in binary mode. It may not be read correctly. [pdf.py:1143]
Traceback (most recent call last):
File "D:/Gitlab/my_world/recognize_img/pdf_to_img.py", line 36, in <module>
jiemi('D:\\Gitlab\\my_world\\recognize_img\\demo_img\\无框表格不可编辑.pdf')
File "D:/Gitlab/my_world/recognize_img/pdf_to_img.py", line 9, in jiemi
pdfFile = PyPDF4.pdf.PdfFileReader(fp)
File "C:\Users\dell\Anaconda3\lib\site-packages\PyPDF4\pdf.py", line 1148, in __init__
self.read(stream)
File "C:\Users\dell\Anaconda3\lib\site-packages\PyPDF4\pdf.py", line 1754, in read
stream.seek(-1, 2)
io.UnsupportedOperation: can't do nonzero end-relative seeks
Process finished with exit code 1
报错时seek()函数引发的异常。解决方法:如果使用open()函数来打开文件而引发的错误时(比如我是用open()函数来打开pdf),必须使用r+b的读取方式。
def read_pdf(file_path):
with open(pdfpath,"rb") as fp:
pdfFile = PyPDF4.pdf.PdfFileReader(fp)
print(pdf.pages)
fp.close()
if __name__ == '__main__':
file_path = 'D:\\Gitlab\\my_world\\recognize_img\\demo_img\\无框表格不可编辑.pdf'
read_pdf(file_path)
这个报错是由seek()函数引发的异常。seek()函数常见于读取文件中,有指针的作用。一般在读取文档的过程中,指针会随之移动来记录当前已读的位置。seek()函数还可以将指针移动到指定位置。
seek函数的使用
fp.seek(0, 0) # 第一个0代表偏移量,第二个0代表从哪个位置开始偏移(0:从文件开头起,1:从当前位置起,2:从文件末尾起。)
# 打开文件
with open("runoob.txt", "rw+") as fp:
line = fp.readline()
print("读取数据:",line)
# 重新设置文件读取指针到开头
fp.seek(0, 0) # 第一个0代表偏移量,第二个0代表从哪个位置开始偏移(0:从文件开头起,1:从当前位置起,2:从文件末尾起。)
line = fp.readline()
print("重置后读取数据:",line)
# 关闭文件
fp.close()