当前位置：首页 > 面试题库 >

如何使用pdfbox提取文本内容的字体样式？

商德泽

2023-03-14

问题内容：

我正在使用pdfbox库从pdf文件中提取文本内容。我可以提取所有文本，但找不到提取字体样式的方法。

问题答案：

这不是提取字体的正确方法。要读取字体，必须遍历pdf页面并提取字体，如下所示：

PDDocument  doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
    Map<String,PDFont> pageFonts=page.getResources().getFonts();
}

类似资料：

如何使用pdfbox从pdf提取粗体文本？

问题内容：我正在使用Apache pdfbox提取文本。我可以从pdf中提取文本，但我不知道该单词是否为粗体？（代码建议会很好！！！）这是从pdf提取纯文本的代码，可以正常工作。问题答案：的结果是纯文本。因此，将其提取后为时已晚。但是，您可以覆盖某些方法，只允许根据您的意愿格式化的文本通过。在这种情况下，您必须覆盖在您的替代中，您检查所讨论的文本是否满足您的要求（包含有关所讨论文本的很多
如何使用pdfbox从pdf中提取粗体文本？

我使用Apache pdfbox来提取文本。我可以从pdf中提取文本，但我不知道如何知道这个词是否加粗？？？（代码建议很好！！！）下面是从pdf中提取纯文本的代码，效果很好。
如何使用Apache PDFBox从PDF文件提取文本

问题内容：我想使用Apache PDFBox从给定的PDF文件中提取文本。我写了这段代码：但是，出现以下错误：我在类路径中添加了pdfbox-1.8.5.jar和fontbox-1.8.5.jar。编辑我添加到程序的开头。我运行了它，然后出现了与上述相同的错误，并且未出现在控制台中。因此，我认为我对类路径或其他东西有疑问。谢谢。问题答案：我执行了您的代码，它工作正常。也许您的
提取jms文本内容
PDFBox文本提取，旋转和字体名称，大小

我正在使用最新的PDFBOX库来提取文本，为了做到这一点，我编写了我的自定义PDFStreamEngine（shwoing部分代码，但其余应该类似）：然而，我有三个问题：第一个：“Tf”操作符-在PDF/F1中1 Tf：当我显示fontName和size时，它显示:evmanj+myriadpro-regular,size 1；但是，illustrator和adobe Acrobat上的实际字体
如何从网页中提取文本内容？

问题内容：我正在用Java开发一个应用程序，该应用程序可以从不同的网页获取文本信息并将其汇总为一页。例如，假设我在不同的网页（例如印度教，印度时报，政治家等）上都有新闻。该应用程序应该从这些页面的每个页面中提取要点，并将它们整合为一条新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者，我不知道从哪里开始我浏览了一些研究论文，这些论文将消除噪声作为构建此应用程序的第一步。因此，如果给我

如何使用pdfbox提取文本内容的字体样式？

相关阅读

相关文章

相关问答

相关工具

相关文档