当前位置: 首页 > 知识库问答 >
问题:

PDFBox 2栏目如何检查珠子

夏侯枫
2023-03-14

我有http://laws-lois.justice.gc.ca/pdf/a-8.8.pdf,我正在尝试使用有两个列的PDFBox解析它。我希望对文本进行解析,以便将两列分开,但是当我通过PDFBox运行它时,它并没有将两列分开,而是将两列中的行连接在一起。

我读过https://issues.apache.org/jira/browse/pdfbox-448,上面说有些PDF没有可以使用的文章/珠子,所以解析总是错误的。我已尝试使用Stripper.SetShouldSeparateByBeads(true)

我怎么检查这个有没有珠子?除了关于pdfbox的列解析的问题之外,我还没有找到任何关于这个概念的阅读材料。

共有1个答案

夏侯楷
2023-03-14

您可以使用pdpage.getThreadBeads()检查珠子是否在页面中。这将返回一个空列表,如果没有线珠。

剧透警告:您的文档没有任何内容。

关于如何使用它们的示例可以在源代码下载中的DrawPrintTextLocations.java示例中找到。包含珠子的PDF文件示例可以在文件pdfbox-3110-003422-p1-beads.PDFpdfbox-3110-poems-beads.PDF中找到,也可以在源代码下载中找到。

额外提示:看看extracttextbyarea.java示例,这将帮助您提取PDF文件。

 类似资料:
  • 问题内容: 有没有一种简单的方法来检查Golang项目的大小?它不是可执行文件,而是我要在自己的项目中导入的软件包。 问题答案: 您可以通过查看目录来查看库二进制文件的大小(如果未导出,则默认为)。 因此要检查一些http pkgs 的大小。首先安装它们: 我的64位MacOS()的KB二进制大小: 编辑: 库(包)的大小是一回事,但是在链接阶段之后,可执行文件中占用的空间可能有很大的不同。这是因

  • 问题内容: 如何检查C语言在Linux上是否存在目录? 问题答案: 您可以使用并检查是否失败:

  • 问题内容: 我有一个根视图控制器,没有将其设置为故事板上的任何视图控制器的自定义类。相反,我所有的视图控制器都将此类子类化。 但是,当在视图控制器上按下tabbaritem时,我似乎正在做某事,该控件是rootviewcontroller的子类,即消息未打印。 问题答案: 您不希望视图控制器的基类是UITabBarDelegate。如果要这样做,则所有视图控制器子类都将是标签栏委托。我认为您想要做

  • 我最近一直在使用Hamcrest库编写一些测试,非常成功,但现在我需要做一些更复杂的事情,并开始看到很多困难。我需要输入并验证地图中项目的属性。我的生产代码如下所示: 我想写一些像下面这样的测试代码,但是它不编译。看起来Hamcrest的hasEntry是类型参数化的,而hasItem和hasProperty只需要Object。 我的IDE(Eclipse)给出了这个错误消息:参数化方法

  • 问题内容: 我已经尝试过 并使用遍历它。 这里是FormData上的MDN参考。 两种尝试。 如何检查表单数据以查看设置了哪些键。 问题答案: 更新方法: Chrome和Firefox的最新版本现在支持使用来检查FormData。。 感谢Ghost Echo和rloth指出了这一点! 旧答案: 看完这些文章之后,似乎无法从FormData对象中获取数据。您只能将它们用于构建通过AJAX请求发送的F

  • 本文向大家介绍如何使用Python检查目录的权限?,包括了如何使用Python检查目录的权限?的使用技巧和注意事项,需要的朋友参考一下 您可以使用os.access(path,mode)来检查目录权限以及读取,写入和执行权限的模式。为了能够写,您还需要检查执行权限。例如, 您还可以遵循一个通用的Python习惯用法:寻求宽容比获得许可要容易。按照该习惯用法,您应该尝试写入有问题的目录,如果没有权限