问题：

如何从PDF文件中获取带下划线的文本？

吕宇定

2023-03-14

每个人我试图通过itext从PDF文件中获取一些带下划线的文本，这对我来说似乎非常困难。我已经搜索了很长时间的解决方案，并学习了如何获取文本的字体系列、字体大小和文本位置。但是，没有下划线。期待您的帮助！非常感谢。

共有1个答案

居乐池

2023-03-14

使用itext可能无法做到这一点，但您可以在一定程度上使用pdfbox实现这一点

看看这个：https://stackoverflow.com/a/40039407/4353762

但是要注意它在某些情况下可能不起作用，库需要知道字体的字体和描述符。如果你抛出一个未知类型的pdf，那么描述符将返回null，代码将简单地与NullPointerException中断。

如果您想手动处理NullPointerException，那么可能需要查看PDFStyledTextStripper的下划线和删除线方法。Java语言

类似资料：

如何从PDF文件中提取文本？

问题内容：我正在尝试使用提取此 PDF文件中包含的文本。我正在使用PyPDF2模块，并具有以下脚本：运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：如何提取PDF文档中的文本？问题答案：要从PDF提取文本，请使用以下代码
在PDF中搜索带下划线和粗体的文本

使用iTextSharp，我如何确定解析的文本块是否同时加粗和下划线？详细信息: 我正在尝试用C#解析。pdf文件，特别是针对既加粗又加下划线的文本。使用ITextSharp，我可以从LocationTextExtractionStrategy派生，并从传递给overridden.RenderText方法的ITextSharp.text.pdf.parser.TextRenderInfo对象获取
如何使用Python从本地PDF文件中获取文本

请不要使用“tika”作为答案。我已经尝试了这个问题的答案：如何从PDF文件中提取文本？我有这个PDF文件，https://drive.google.com/file/d/1aUfQAlvq5hA9kz2c9CyJADiY3KpY3-Vn/view?usp=sharing，我想复制文本。输出为“提交日期：2019-10-21 16:03:36.093 |表单键：5544”，这只是文本的一部分
如何使用java从pdf文件中获取原始文本

我有一些pdf文件，使用pdfbox我已经将它们转换为文本并存储到文本文件中，现在我要从文本文件中删除它们超链接我希望按如下方式逐行获取有效文本：我们提出了一种从纯文本中提取的多词概念词进行本体学习的方法OntoGain。OntoGain遵循一个由不同处理层定义的本体学习过程。在普通术语提取的基础上，通过对提取的概念进行聚类，形成概念层次结构。然后，衍生术语“分类法”将丰富非分类关系。已经研
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
如何从.jar文件读取PDF

在我的maven项目中，我有一个PDF文件，它位于文件夹中。我的函数从文件夹读取PDF文件，并根据用户的数据在文档中添加一些值。此项目使用打包为文件，并在我的其他Spring Boot应用程序中用作依赖项。在我的Spring启动项目中，我创建了将在PDF上执行一些工作的类的instace。一旦PDF文件上的所有工作都完成，并且当PDF文件保存在文件系统上时，它始终是空的（所有页面都是空白的）。

如何从PDF文件中获取带下划线的文本？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档