问题：

使用python查找pdf文档中搜索字符串所在的页面

叶冥夜

2023-03-14

我可以使用哪些python包来找出特定的“搜索字符串”位于哪个页面上？

我研究了几个python pdf包，但不知道我应该使用哪一个。PyPDF似乎没有这个功能和PDFMiner似乎是一个过度杀这样简单的任务。有什么建议吗？

更准确地说：我有几个PDF文档，我想提取介于字符串“Begin”和字符串“End”之间的页面。

共有3个答案

翟越

2023-03-14

我能够使用下面的代码成功地获得输出。

代码：

import PyPDF2
import re

# Open the pdf file
object = PyPDF2.PdfFileReader(r"C:\TEST.pdf")

# Get number of pages
NumPages = object.getNumPages()

# Enter code here
String = "Enter_the_text_to_Search_here"

# Extract text and do the search
for i in range(0, NumPages):
    PageObj = object.getPage(i)
    Text = PageObj.extractText()
    if re.search(String,Text):
         print("Pattern Found on Page: " + str(i))

样本输出：

Pattern Found on Page: 7

邓英卓

2023-03-14

除了@user1043144提到的，

与python 3. x一起使用

使用PyPDF2

import PyPDF2

用open代替file

PdfFileReader(open(xFile, 'rb'))

司马宏茂

2023-03-14

我终于发现pyPDF能帮上忙。我正在发布它，以防它能帮助其他人。

（1）查找字符串的函数

def fnPDF_FindText(xFile, xString):
    # xfile : the PDF file in which to look
    # xString : the string to look for
    import pyPdf, re
    PageFound = -1
    pdfDoc = pyPdf.PdfFileReader(file(xFile, "rb"))
    for i in range(0, pdfDoc.getNumPages()):
        content = ""
        content += pdfDoc.getPage(i).extractText() + "\n"
        content1 = content.encode('ascii', 'ignore').lower()
        ResSearch = re.search(xString, content1)
        if ResSearch is not None:
           PageFound = i
           break
     return PageFound

（2）一个提取感兴趣页面的函数

  def fnPDF_ExtractPages(xFileNameOriginal, xFileNameOutput, xPageStart, xPageEnd):
      from pyPdf import PdfFileReader, PdfFileWriter
      output = PdfFileWriter()
      pdfOne = PdfFileReader(file(xFileNameOriginal, "rb"))
      for i in range(xPageStart, xPageEnd):
          output.addPage(pdfOne.getPage(i))
          outputStream = file(xFileNameOutput, "wb")
          output.write(outputStream)
          outputStream.close()

我希望这对其他人有帮助

使用python查找pdf文档中搜索字符串所在的页面

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档