当前位置: 首页 > 知识库问答 >
问题:

Pdf到txt的转换

司寇烨伟
2023-03-14

我有pdf格式的数据,我想把它转换成文本。我想删除图像,页眉和页脚,而数据将只以多行表格的形式保留,你能建议转换它的最佳方式吗?我尝试了Tabula和apache tika,但结果并不理想。

共有2个答案

姜淇
2023-03-14

http://pdftotext.com/这工作,但可能不是你寻找的方式

林玮
2023-03-14

您可能知道,PDF中的文本是按页面上的x/y坐标排列的。标题并不像在MSWord、HTML等中那样被存储/识别。

很高兴听到你尝试过白板:https://github.com/tabulapdf/tabula。很抱歉它对你不起作用。

如果你在处理期刊文章,你可能会很幸运地遇到grobidhttps://wiki.apache.org/tika/GrobidJournalParser

要按位置提取文本,请参见:https://stackoverflow.com/a/35299074

 类似资料:
  • 我正在尝试使用蜡染将 SVG 转换为 JPG。在SVG中,我正在使用外部谷歌字体,因此不幸的是,这失败了,并出现以下错误: 有没有办法解决这个问题,或者有一个简单的方法来扩展蜡染来支持这一点? 这是我使用的Java代码: 这是我的SVG文件: 谢谢,杰拉尔德

  • 问题内容: 我正在尝试使用iText库将.txt文件转换为.pdf文件。我面临的问题如下: 我在txt文件中有清晰的格式,与此类似: 在输出中,格式消失了,看起来像这样: 代码如下: 我还尝试使用IDENTITY_H创建BaseFont,但是它不起作用。我猜这是关于编码或类似的东西。你怎么看?我用完了解决方案… 谢谢 LE:正如艾伦(Alan)以及iText页面上的教程所建议的那样,除了我现有的代

  • 问题:使用DOCX4J将docx转换为pdf。问题是docx的内容无法逐页转换为pdf文档。pdf的第1页显示了第2页的几行内容。 波姆。xml: 代码: 想知道docx4j是否有控制它的设置? 尝试过了,但没有太多帮助,无法用Java将docx文件转换为PDF

  • 我对一个不太通用的需求有一个通用的问题。 我必须将一个Excel文件转换成PDF格式,但必须保留Excel文件中每个单元格的所有格式。不允许更改。比如,如果一个单元格被格式化为Currence/Accounting,那么默认情况下负值会显示在圆括号中,例如(8.5),但从Java读取时,该值是-8.5。对于数字单元格,值为0,但显示为连字符(-)。类似地,对于其他格式类型,显示也会发生变化。 如有

  • 我在合并从iText生成的两个PDF时遇到了一个问题。我是iText7的新手,我正在从html创建一个pdf,并用excel(.xls)创建另一个pdf作为pdf的嵌入文档。我想合并这2个文件。 请指教。提前感谢!!