当前位置: 首页 > 面试题库 >

是否有用于将文档从pdf转换为html的java库?

袁华清
2023-03-14
问题内容

开源实施将是首选。


问题答案:

显然,这不是一件容易的事,PDF格式比HTML格式丰富得多(此外,您必须提取图像并将其链接等)。
简单的文本提取要简单得多(尽管不小…)。
我在问题的侧边栏中看到一个类似的问题:使用Python将PDF转换为HTML,这指向一个库(poppler,它显然是用C
++编写的,也许可以用JNI / JNA进行访问),还涉及到一个相关的问题,甚至更多答案。




 类似资料:
  • 问题内容: 我是一名PHP开发人员,在我的一个项目中,我需要将一些HTML文档(大约30至50页)转换为PDF文档。 我的搜索找到了以下可能的解决方案。其中包括一些PHP库和一些命令行应用程序。每种都有自己的优点和缺点。 PHP库: fpdf(需要更多的转换努力) tcpdf(需要更多的转换努力) html2fpdf http://html2fpdf.sourceforge.net html2pd

  • 问题内容: 我需要从现有的(X)HTML文档自动生成PDF文件。输入文件(报告)使用非常简单的基于表的布局,因此可能不需要支持真正精美的JavaScript / CSS。 由于我习惯于在Java中工作,因此最好在Java项目中轻松使用的解决方案。不过,它仅需要在Windows系统上工作。 一种可行的方法,但不会产生高质量的输出(至少是开箱即用的),一种方法是使用CSS2XSLFO和Apache F

  • 我想把HTMLdocument转换成PDF文件。为此,我毫无问题地将我的文档从HTML转换为。docx。把它从。docx到PDF我遵循以下链接:在java中将docx转换成PDF 但我有一个错误: 线程“JavaFX应用程序线程”java中出现异常。lang.NoSuchMethodError:org。阿帕奇。波伊。这是我最喜欢的部分。getPackageRelationship()Lorg/ap

  • 问题内容: 按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 我需要从现有的(X)HTML文档自动生成PDF文件。输入文件(报告)使用非常简单的基于表的布局,因此可能不需要支持真正精美的JavaScript / CSS。

  • 问题内容: 将PDF文档转换为HTML在浏览器中查看的最佳解决方案是什么?该站点有多个PDF文档,访问者可以单击HTML格式的视图,并且应在屏幕上以HTML文件的形式查看。 运行PHP,Linux,Apache的标准网站。 问题答案: pdftohtml可以正常工作:快速,稳定,但是html结果充其量是丑陋的。我已经在有很多工作简历的网站上使用了很长时间。 但是,这是提取文本内容的好方法。 或Go

  • 我想在pdf中更改一些超文本标记语言。我所有的html都是超文本标记语言字符串,但我不知道如何在中正确传递。 如果有人知道怎么做。。一定很好。多谢多姆