我正在尝试使用R
中的tabulizer
包从pdf
中提取表。我运行以下行:
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
但是,我不断遇到以下错误:
中出错。jcall(“RJavaTools”,“Ljava/lang/Object;”,“invokeMethod”,cl,:java。lang.IllegalAccessException:RJavaTools类无法访问java类的成员。util。ArrayList$Itr(在模块java.base中),带修饰符“public”
我能够从pdf
中提取元数据,所以我很确定这不是tabulizer
包的安装问题,而是java问题,我不是很有经验。
好吧,我知道了,至少在我的机器上。有了swsoyee对tabulizer的GitHub页面上类似公开问题的提示,我一路支持Java 8。在新的MBP上,这意味着从Azul获得Java,因为Oracle(还没有?)发布该版本的arm64版本。
我相信还有一种更优雅的方式,但我不使用Java,所以我把安装zulu-8之前安装的所有其他Java版本都扔掉了。jdk。(我还不得不扔掉插件,但ymmv)。这就成功了:
library(tabulizer)
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
table[[1]]
#> [,1] [,2]
#> [1,] "Tabel 1.1" ""
#> [2,] "Centrale skøn vedrørende tilrettelæggelsen af finanspolitikken" ""
#> [3,] "2018" "2019"
#> [4,] "Strukturel saldo, pct. af strukturelt BNP 0,2" "-0,1"
#> [5,] "Faktisk saldo, pct. af BNP 0,6" "1,9"
#> [6,] "ØMU-gæld, pct. af BNP 34,1" "33,7"
#> [7,] "Offentlig forbrugsvækst, pct.1) 0,7" "0,8"
#> [8,] "Ét-årig finanseffekt, pct. af BNP2) -0,2" "-0,1"
#> [9,] "Outputgab, pct.3) 0,1" "0,8"
#> [10,] "Beskæftigelsesgab, pct.3) 0,2" "0,7"
#> [,3]
#> [1,] ""
#> [2,] ""
#> [3,] "2020"
#> [4,] "0,0"
#> [5,] "0,4"
#> [6,] "33,5"
#> [7,] "0,7"
#> [8,] "0,0"
#> [9,] "1,0"
#> [10,] "0,9"
2021 12月14日由reprex软件包(v2.0.1)创建
我有不同类型的pdf,其中包含多个内容,如文本,表格等。该表可以存在于pdf的任何位置(顶部,中间,底部)。我只想提取表数据(不。的列,没有。行数 到目前为止我所做的工作:- 1.我使用了iText java API来读取和提取。使用以下代码:- pdftextextractor . gettextfrompage 但它只是以文本形式返回数据。没有得到任何线索来确定表格在pdf中的位置以及如何从该
我有关于从PDF文件中提取数据的查询。我有一个PDF文件,其中包含多个可用的数据表。我想从需要的表内容中提取数据。 如何从 PDF 文件中提取表格数据? 如何使用 iText/PDFBox 执行此操作?
问题描述 (Problem Description) 如何使用java从PDF中提取内容。 解决方案 (Solution) 以下是使用java从PDF中提取内容的程序。 import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.ti
问题描述 (Problem Description) 如何使用java从PDF中提取图像。 解决方案 (Solution) 以下是使用Java从PDF中提取图像的程序。 import java.awt.image.BufferedImage; import java.io.File; import javax.imageio.ImageIO; import org.apache.pdfbox
我使用Apache pdfbox来提取文本。我可以从pdf中提取文本,但我不知道如何知道这个词是否加粗???(代码建议很好!!!)下面是从pdf中提取纯文本的代码,效果很好。
我想知道如何从pdf中提取数据,通过使用python语言在py魅力。我试图通过从pypdf2导入使用py魅力编码,但它没有显示结果。