Pdf到txt的转换

司寇烨伟

2023-03-14

我有pdf格式的数据，我想把它转换成文本。我想删除图像，页眉和页脚，而数据将只以多行表格的形式保留，你能建议转换它的最佳方式吗？我尝试了Tabula和apache tika，但结果并不理想。

共有2个答案

姜淇

2023-03-14

http://pdftotext.com/这工作，但可能不是你寻找的方式

林玮

2023-03-14

您可能知道，PDF中的文本是按页面上的x/y坐标排列的。标题并不像在MSWord、HTML等中那样被存储/识别。

很高兴听到你尝试过白板：https://github.com/tabulapdf/tabula。很抱歉它对你不起作用。

如果你在处理期刊文章，你可能会很幸运地遇到grobidhttps://wiki.apache.org/tika/GrobidJournalParser

要按位置提取文本，请参见：https://stackoverflow.com/a/35299074

类似资料：

Batik SVG到PDF的转换

我正在尝试使用蜡染将 SVG 转换为 JPG。在SVG中，我正在使用外部谷歌字体，因此不幸的是，这失败了，并出现以下错误：有没有办法解决这个问题，或者有一个简单的方法来扩展蜡染来支持这一点？这是我使用的Java代码：这是我的SVG文件: 谢谢，杰拉尔德
使用iText将TXT文件转换为PDF（保留格式）

问题内容：我正在尝试使用iText库将.txt文件转换为.pdf文件。我面临的问题如下：我在txt文件中有清晰的格式，与此类似：在输出中，格式消失了，看起来像这样：代码如下：我还尝试使用IDENTITY_H创建BaseFont，但是它不起作用。我猜这是关于编码或类似的东西。你怎么看？我用完了解决方案… 谢谢 LE：正如艾伦（Alan）以及iText页面上的教程所建议的那样，除了我现有的代
docx4j:docx到pdf的转换-docx内容不会逐页显示到pdf

问题：使用DOCX4J将docx转换为pdf。问题是docx的内容无法逐页转换为pdf文档。pdf的第1页显示了第2页的几行内容。波姆。xml: 代码：想知道docx4j是否有控制它的设置？尝试过了，但没有太多帮助，无法用Java将docx文件转换为PDF
韩文字体的docx到pdf的转换
不丢失格式的XLS到PDF转换

我对一个不太通用的需求有一个通用的问题。我必须将一个Excel文件转换成PDF格式，但必须保留Excel文件中每个单元格的所有格式。不允许更改。比如，如果一个单元格被格式化为Currence/Accounting，那么默认情况下负值会显示在圆括号中，例如(8.5)，但从Java读取时，该值是-8.5。对于数字单元格，值为0，但显示为连字符（-）。类似地，对于其他格式类型，显示也会发生变化。如有
iText 7 Html到Pdf转换并将外部文件链接到生成的Pdf

我在合并从iText生成的两个PDF时遇到了一个问题。我是iText7的新手，我正在从html创建一个pdf，并用excel（.xls）创建另一个pdf作为pdf的嵌入文档。我想合并这2个文件。请指教。提前感谢！！

Pdf到txt的转换

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档