当前位置: 首页 > 知识库问答 >
问题:

使用Apache PDFBox解析PDF文件

束雅达
2023-03-14

我试图使用PDFBox修改PDF文档的内容。我使用了这个例子,但观察到我的PDF文件的文本在字符级别(或更糟)被分割。例如,一个字符串,EM?它是什么:被分割成:

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

(通过在上述代码中打印costring进行检查时)。据我所知,文件中只有拉丁字符,编码也是ISO-8859-1。有什么想法吗?

当做

萨利

共有1个答案

段干帅
2023-03-14

这很可能是一个PDF格式问题。这是您特定的PDF如何存储文本,以便获得正确的字母行间距或进行字距调整。这在不同的PDF中差异很大,取决于它们是如何创建的。

通常,我建议简单地将所有不同的令牌合并成一个大的内容字符串。

 类似资料:
  • 本文向大家介绍用C#来解析PDF文件,包括了用C#来解析PDF文件的使用技巧和注意事项,需要的朋友参考一下 1. 介绍 这个项目让你可以去读取并解析一个PDF文件,并将其内部结构展示出来. PDF文件的格式标准文档可以从Adobe那儿获取到. 这个项目基于“PDF指南,第六版,Adobe便携文档格式1.7 2006年11月”. 它是一个恐怕有1310页的大部头. 本文提供了对这份文档的简洁概述.

  • 我正在尝试使用iText7库升级我的代码。以前我使用过iTextSharp库,但看起来iText7是全新的。我尝试阅读pdf文档,但在“未找到pdf标题”之间遇到了一个异常。这是我的密码 我做错了什么?

  • 我在Android Studio中编写Kotlin代码。用户从电话中选择一个文件(我需要以字符串的形式访问内容)。我得到了一个乌里?。和那个乌里?我可以从.csv和.txt文件中提取文本: ... 我已经试了好几天了。有没有人知道,在Kotlin是怎么运作的?

  • 我试图解析一个超文本标记语言字符串,其中包含希伯来文到pdf在MVC应用程序中使用iTEXT夏普和xmlwork5.5.13。我不能让希伯来语出现在页面上。我试图模仿这篇文章,但我做的任何事情似乎都没有帮助。我已将超文本标记语言简化为以下内容: (流被保存到数据库中并以文件形式打开,尽管我尝试保存到磁盘并得到相同的结果。)

  • 此链接(http://www.lenovo.com/psref/pdf/psref450.pdf)中的PDF包含许多类似这样的表格: 我想以编程方式从这些表中提取数据和结构。 我尝试过的事情:使用 Tika:不幸的是,表格被转换为空格分隔的段落 - 并且某些字符串包含空格,因此无法拆分它们。 Python的PDFMiner:由于缺少字体而返回断言错误。我怀疑 HTML 与 Ika 的输出相似,尽管

  • 问题内容: 我想使用 GSON* 在 JAVA中 解析此 JSON 文件: *** 但是我不知道如何加入root元素: 描述符 ,之后是 app3 元素,最后是 name 元素。 我遵循了本教程http://www.mkyong.com/java/gson-streaming-to-read-and-write- json/ ,但是它没有显示具有root和childs元素的情况。 问题答案: Im