当前位置: 首页 > 知识库问答 >
问题:

Python-Apache Tika单页解析器

崔涵亮
2023-03-14

我想知道是否有任何方法使用Tika/Python只解析第一页或从第一页提取元数据?现在,当我传递pdf时,它正在解析每一个页面。我查看了这个链接:使用Apache Tika可以按页面提取Word/PDF文件的文本吗?但是,这个链接在java中解释得更多,我对java并不熟悉。我希望能有一个python解决方案?谢了!

from tika import parser
# running: java -jar tika-server1.18.jar before executing code below. 
parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf')

fulltext = parsedPDF['content']

metadata_dict = parsedPDF['metadata']
title = metadata_dict['title']
author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page 
pages = metadata_dict['xmpTPg:NPages']

共有1个答案

罗和煦
2023-03-14

谢谢你的信息,真的很有帮助。下面是我逐页检索内容的代码(有点脏,但很管用):

    raw_xml = parser.from_file(file, xmlContent=True)
    body = raw_xml['content'].split('<body>')[1].split('</body>')[0]
    body_without_tag = body.replace("<p>", "").replace("</p>", "").replace("<div>", "").replace("</div>","").replace("<p />","")
    text_pages = body_without_tag.split("""<div class="page">""")[1:]
    num_pages = len(text_pages)
    if num_pages==int(raw_xml['metadata']['xmpTPg:NPages']) : #check if it worked correctly
         return text_pages
 类似资料:
  • 本文向大家介绍Python解析最简单的验证码,包括了Python解析最简单的验证码的使用技巧和注意事项,需要的朋友参考一下 最近在学python,正好遇到学校需要选宿舍,就用python写了一个抢宿舍的软件。其中有一个模块是用来登陆的,登陆的时候需要输入验证码,不过后来发现了直接可以绕过验证码直接登陆的bug。不过这是另外的话题,开始的时候我并没有发现这个隐藏起来的秘密,所以我就写了这个pytho

  • 本文向大家介绍Python requests获取网页常用方法解析,包括了Python requests获取网页常用方法解析的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了Python requests获取网页常用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 主要记录使用 requests 模块获取网页源码的方法 以上就是本文

  • 本文向大家介绍Python实现网页截图(PyQT5)过程解析,包括了Python实现网页截图(PyQT5)过程解析的使用技巧和注意事项,需要的朋友参考一下 方案说明 功能要求:实现网页加载后将页面截取成长图片 涉及模块:PyQT5 PIL 逻辑说明: 1:完成窗口设置,利用PyQT5 QWebEngineView加载网页地址,待网页加载完成后,调用check_pag; 2:收集页面高度,并计算分次

  • 问题内容: 我有一个非常简单的json,无法使用simplejson模块进行解析。再生产: 结果: 任何人都知道出了什么问题以及如何正确解析上面的json吗? 在那里编码的字符串是: Variées PS我使用python 2.5 非常感谢! 问题答案: 那是完全正确的;包含无效的转义符,JSON标准不允许后面跟数字。 无论产生什么代码,都应该修复。如果那是不可能的,那么您将需要使用正则表达式删除

  • 我正在尝试用解析XML中不同元素的特定方法编写一些单元测试。但是我在单元测试中解析“测试”xml文件时遇到了一些问题。 我的问题并不是与XML/XSD文件有关,而是关于如何在单元测试中正确解析它们。 这是我到目前为止的代码: 即使我在实现方法中以同样的方式进行解析,我也会得到以下错误: 错误:读取文件“dir/testxsd.xsd”时出错:无法加载外部实体“dir/testxsd.xsd” 我尝

  • 本文向大家介绍Python解析json代码实例解析,包括了Python解析json代码实例解析的使用技巧和注意事项,需要的朋友参考一下 这篇文章主要介绍了Python解析json代码实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 什么是json格式: JSON(JavaScript Object Notation):一种轻量级数据交换格式