当前位置: 首页 > 知识库问答 >
问题:

PdfBox文本提取无法正常工作

法子昂
2023-03-14
PDFTextStripper stripper = new PDFTextStripper();
PDDocument document = PDDocument.load(inputStream);
String text = stripper.getText(document);

提取的文本:http://pastebin.com/BXFfMy0z

问题pdf:http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf

如何从该pdf文件中提取正确的文本?

共有3个答案

晏鸿畅
2023-03-14

原始文件应包含到Unicode的映射。此部分不存在,因此您在提取后得到了断开的文本。

长孙高远
2023-03-14

我认为问题在于编码。。pdf文本以不同的格式编码。。如果右键单击文档并单击文档属性。。您可以找到编码。我想下面的链接会给你更多的解释

链接1
链接2

郎和志
2023-03-14

除了@karthik27的回答之外:

Adobe Reader在文本提取方面相当出色,因此,通常可以用作指示是否可以从给定文档中提取文本。

因此,每当您有自己的文本提取无法处理的文档时,请在读取器中打开它并尝试复制

对于您的文档,我确实会从Adobe Reader中复制和粘贴一组半随机的不可见和特殊字符,就像您使用PDFBox时一样,即垃圾。因此,最有可能的是,除了OCR之外,任何东西都不允许从中提取文本。

 类似资料:
  • 我正试图从一组PDF文件中提取一些信息。这是目前为止的工作,但一个PDF给我的委屈。 我使用的是PDFBOX1.8.8和Java7。 我没有例外,什么都没有。有什么想法吗? 编辑:附加信息:使用Acrobat Distiller 9.0.0(Windows)创建,格式为PDF-1.6;其他PDF是版本1.4和1.5 似乎并不包含异国情调的角色。我可以在Evince PDF-viewer中标记/复制

  • 我正在尝试从pdf中提取图像。pdfbox能够从大多数PDF中提取图像,但它们是一些无法通过pdfbox提取图像的PDF。 为了提取图像,我使用以下代码:无法从PDFA1-a格式文档中提取图像 您可以从以下链接下载带有此问题的pdf示例:http://myslams.com/test/2.pdf 是他们的代码出错了,也许是我忘记处理了,还是他们的pdf一起出了问题?

  • 问题内容: 这正是我想要做的 我用表格打开一个页面,该表格包含有关用户的信息 我的getText()元素指示表中的用户数(例如“列表中的11个用户”) 我删除“列表中的用户”部分,并将字符串转换为整数,以便稍后在for循环中使用 我需要通过用户名(第9列)查找某些用户,并获取数字,该数字是该用户信息所在的行数(这就是我被卡住的地方) 我转到该行的第一列(该行将成为该特定用户的编辑按钮),然后单击它

  • 问题内容: 因此,我的设置无法按我想要的方式工作。因此,每当我运行该程序时,它就会立即从0变为100。我尝试使用,任务,并尝试了,但没有任何尝试。 这是我的程序: @MadProgrammer这是我尝试做一名摆动工作人员并将每个名称写入文档并更新进度栏的尝试。该程序将达到86%左右并停止运行,永远不会创建完成的文档。该程序将创建一个空白文档。这是我首先创建的SwingWorker对象,这是两种方法

  • 问题内容: 我在JLayeredpane上有两个JPanels。其中一个显示pdf,重叠的一个具有透明背景(我使用过setOpaque(false))。现在,我可以将图形添加到透明面板中,这样看来我实际上是在注释pdf。我想要一个橡皮擦工具来删除这些注释。我尝试使用以下代码 其中path是由多条线构成的形状。现在,不是在先前的图形上绘制 透明线 ,而是绘制 黑线 。我要去哪里错了? 问题答案: 请

  • 问题内容: 这看起来有效,但无法正常工作。我希望菜单悬停时’huh’div不透明。我尝试了淡入/淡出效果,但效果很好,但只有一次很奇怪。 问题答案: 不带点使用: