问题：

在R中使用Tabulizer从pdf提取表时如何解决Java错误

乐成济

2023-03-14

我正在尝试使用R中的tabulizer包从pdf中提取表。我运行以下行：

table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)

但是，我不断遇到以下错误：

中出错。jcall（“RJavaTools”，“Ljava/lang/Object；”，“invokeMethod”，cl，：java。lang.IllegalAccessException:RJavaTools类无法访问java类的成员。util。ArrayList$Itr（在模块java.base中），带修饰符“public”

我能够从pdf中提取元数据，所以我很确定这不是tabulizer包的安装问题，而是java问题，我不是很有经验。

共有1个答案

翟高明

2023-03-14

好吧，我知道了，至少在我的机器上。有了swsoyee对tabulizer的GitHub页面上类似公开问题的提示，我一路支持Java 8。在新的MBP上，这意味着从Azul获得Java，因为Oracle（还没有？）发布该版本的arm64版本。

我相信还有一种更优雅的方式，但我不使用Java，所以我把安装zulu-8之前安装的所有其他Java版本都扔掉了。jdk。（我还不得不扔掉插件，但ymmv）。这就成功了：

library(tabulizer)
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
table[[1]]
#>       [,1]                                                             [,2]  
#>  [1,] "Tabel 1.1"                                                      ""    
#>  [2,] "Centrale skøn vedrørende tilrettelæggelsen af finanspolitikken" ""    
#>  [3,] "2018"                                                           "2019"
#>  [4,] "Strukturel saldo, pct. af strukturelt BNP 0,2"                  "-0,1"
#>  [5,] "Faktisk saldo, pct. af BNP 0,6"                                 "1,9" 
#>  [6,] "ØMU-gæld, pct. af BNP 34,1"                                     "33,7"
#>  [7,] "Offentlig forbrugsvækst, pct.1) 0,7"                            "0,8" 
#>  [8,] "Ét-årig finanseffekt, pct. af BNP2) -0,2"                       "-0,1"
#>  [9,] "Outputgab, pct.3) 0,1"                                          "0,8" 
#> [10,] "Beskæftigelsesgab, pct.3) 0,2"                                  "0,7" 
#>       [,3]  
#>  [1,] ""    
#>  [2,] ""    
#>  [3,] "2020"
#>  [4,] "0,0" 
#>  [5,] "0,4" 
#>  [6,] "33,5"
#>  [7,] "0,7" 
#>  [8,] "0,0" 
#>  [9,] "1,0" 
#> [10,] "0,9"

2021 12月14日由reprex软件包（v2.0.1）创建

类似资料：

使用java从pdf中识别和提取表

我有不同类型的pdf，其中包含多个内容，如文本，表格等。该表可以存在于pdf的任何位置（顶部，中间，底部）。我只想提取表数据（不。的列，没有。行数到目前为止我所做的工作：- 1.我使用了iText java API来读取和提取。使用以下代码：- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该
如何在Java中从PDF文件中提取表格数据

我有关于从PDF文件中提取数据的查询。我有一个PDF文件，其中包含多个可用的数据表。我想从需要的表内容中提取数据。如何从 PDF 文件中提取表格数据？如何使用 iText/PDFBox 执行此操作？
如何使用java从PDF中提取内容。（How to extract content from a PDF using java.）

问题描述 (Problem Description) 如何使用java从PDF中提取内容。解决方案 (Solution) 以下是使用java从PDF中提取内容的程序。 import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.ti
如何使用java从PDF中提取图像。（How to extract an image from a PDF using java.）

问题描述 (Problem Description) 如何使用java从PDF中提取图像。解决方案 (Solution) 以下是使用Java从PDF中提取图像的程序。 import java.awt.image.BufferedImage; import java.io.File; import javax.imageio.ImageIO; import org.apache.pdfbox
如何使用pdfbox从pdf中提取粗体文本？

我使用Apache pdfbox来提取文本。我可以从pdf中提取文本，但我不知道如何知道这个词是否加粗？？？（代码建议很好！！！）下面是从pdf中提取纯文本的代码，效果很好。
如何使用python从pdf中提取数据[复制]

我想知道如何从pdf中提取数据，通过使用python语言在py魅力。我试图通过从pypdf2导入使用py魅力编码，但它没有显示结果。

在R中使用Tabulizer从pdf提取表时如何解决Java错误

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档