当前位置: 首页 > 知识库问答 >
问题:

在R中使用Tabulizer从pdf提取表时如何解决Java错误

乐成济
2023-03-14

我正在尝试使用R中的tabulizer包从pdf中提取表。我运行以下行:

table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)

但是,我不断遇到以下错误:

中出错。jcall(“RJavaTools”,“Ljava/lang/Object;”,“invokeMethod”,cl,:java。lang.IllegalAccessException:RJavaTools类无法访问java类的成员。util。ArrayList$Itr(在模块java.base中),带修饰符“public”

我能够从pdf中提取元数据,所以我很确定这不是tabulizer包的安装问题,而是java问题,我不是很有经验。

共有1个答案

翟高明
2023-03-14

好吧,我知道了,至少在我的机器上。有了swsoyee对tabulizer的GitHub页面上类似公开问题的提示,我一路支持Java 8。在新的MBP上,这意味着从Azul获得Java,因为Oracle(还没有?)发布该版本的arm64版本。

我相信还有一种更优雅的方式,但我不使用Java,所以我把安装zulu-8之前安装的所有其他Java版本都扔掉了。jdk。(我还不得不扔掉插件,但ymmv)。这就成功了:

library(tabulizer)
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
table[[1]]
#>       [,1]                                                             [,2]  
#>  [1,] "Tabel 1.1"                                                      ""    
#>  [2,] "Centrale skøn vedrørende tilrettelæggelsen af finanspolitikken" ""    
#>  [3,] "2018"                                                           "2019"
#>  [4,] "Strukturel saldo, pct. af strukturelt BNP 0,2"                  "-0,1"
#>  [5,] "Faktisk saldo, pct. af BNP 0,6"                                 "1,9" 
#>  [6,] "ØMU-gæld, pct. af BNP 34,1"                                     "33,7"
#>  [7,] "Offentlig forbrugsvækst, pct.1) 0,7"                            "0,8" 
#>  [8,] "Ét-årig finanseffekt, pct. af BNP2) -0,2"                       "-0,1"
#>  [9,] "Outputgab, pct.3) 0,1"                                          "0,8" 
#> [10,] "Beskæftigelsesgab, pct.3) 0,2"                                  "0,7" 
#>       [,3]  
#>  [1,] ""    
#>  [2,] ""    
#>  [3,] "2020"
#>  [4,] "0,0" 
#>  [5,] "0,4" 
#>  [6,] "33,5"
#>  [7,] "0,7" 
#>  [8,] "0,0" 
#>  [9,] "1,0" 
#> [10,] "0,9"

2021 12月14日由reprex软件包(v2.0.1)创建

 类似资料:
  • 我有不同类型的pdf,其中包含多个内容,如文本,表格等。该表可以存在于pdf的任何位置(顶部,中间,底部)。我只想提取表数据(不。的列,没有。行数 到目前为止我所做的工作:- 1.我使用了iText java API来读取和提取。使用以下代码:- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该

  • 我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?

  • 问题描述 (Problem Description) 如何使用java从PDF中提取内容。 解决方案 (Solution) 以下是使用java从PDF中提取内容的程序。 import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.ti

  • 问题描述 (Problem Description) 如何使用java从PDF中提取图像。 解决方案 (Solution) 以下是使用Java从PDF中提取图像的程序。 import java.awt.image.BufferedImage; import java.io.File; import javax.imageio.ImageIO; import org.apache.pdfbox

  • 我使用Apache pdfbox来提取文本。我可以从pdf中提取文本,但我不知道如何知道这个词是否加粗???(代码建议很好!!!)下面是从pdf中提取纯文本的代码,效果很好。

  • 我想知道如何从pdf中提取数据,通过使用python语言在py魅力。我试图通过从pypdf2导入使用py魅力编码,但它没有显示结果。