问题：

使用Apache PDFBox解析PDF文件

束雅达

2023-03-14

我试图使用PDFBox修改PDF文档的内容。我使用了这个例子，但观察到我的PDF文件的文本在字符级别（或更糟）被分割。例如，一个字符串，EM？它是什么：被分割成：

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

（通过在上述代码中打印costring进行检查时）。据我所知，文件中只有拉丁字符，编码也是ISO-8859-1。有什么想法吗？

当做

萨利

共有1个答案

段干帅

2023-03-14

这很可能是一个PDF格式问题。这是您特定的PDF如何存储文本，以便获得正确的字母行间距或进行字距调整。这在不同的PDF中差异很大，取决于它们是如何创建的。

通常，我建议简单地将所有不同的令牌合并成一个大的内容字符串。

类似资料：

用C#来解析PDF文件

本文向大家介绍用C#来解析PDF文件，包括了用C#来解析PDF文件的使用技巧和注意事项，需要的朋友参考一下 1. 介绍这个项目让你可以去读取并解析一个PDF文件，并将其内部结构展示出来. PDF文件的格式标准文档可以从Adobe那儿获取到. 这个项目基于“PDF指南，第六版，Adobe便携文档格式1.7 2006年11月”. 它是一个恐怕有1310页的大部头. 本文提供了对这份文档的简洁概述.
使用iText7 C解析/读取PDF文档#

我正在尝试使用iText7库升级我的代码。以前我使用过iTextSharp库，但看起来iText7是全新的。我尝试阅读pdf文档，但在“未找到pdf标题”之间遇到了一个异常。这是我的密码我做错了什么？
使用URI与Kotlin解析pdf？

我在Android Studio中编写Kotlin代码。用户从电话中选择一个文件（我需要以字符串的形式访问内容）。我得到了一个乌里？。和那个乌里？我可以从.csv和.txt文件中提取文本： ... 我已经试了好几天了。有没有人知道，在Kotlin是怎么运作的？
无法使用itextsharp将希伯来HTML文件解析为pdf

我试图解析一个超文本标记语言字符串，其中包含希伯来文到pdf在MVC应用程序中使用iTEXT夏普和xmlwork5.5.13。我不能让希伯来语出现在页面上。我试图模仿这篇文章，但我做的任何事情似乎都没有帮助。我已将超文本标记语言简化为以下内容：（流被保存到数据库中并以文件形式打开，尽管我尝试保存到磁盘并得到相同的结果。）
解析 PDF 文档中的表格

此链接(http://www.lenovo.com/psref/pdf/psref450.pdf)中的PDF包含许多类似这样的表格: 我想以编程方式从这些表中提取数据和结构。我尝试过的事情：使用 Tika：不幸的是，表格被转换为空格分隔的段落 - 并且某些字符串包含空格，因此无法拆分它们。 Python的PDFMiner：由于缺少字体而返回断言错误。我怀疑 HTML 与 Ika 的输出相似，尽管
使用GSON解析JSON文件

问题内容：我想使用 GSON* 在 JAVA中解析此 JSON 文件： *** 但是我不知道如何加入root元素：描述符，之后是 app3 元素，最后是 name 元素。我遵循了本教程http://www.mkyong.com/java/gson-streaming-to-read-and-write- json/ ，但是它没有显示具有root和childs元素的情况。问题答案： Im

使用Apache PDFBox解析PDF文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档