我在Ubuntu18.04容器中安装了LibreOffice6.4。
目标是将pdf文件转换为DOCX。
我已经尝试过这些命令:
libreoffice --headless --convert-to docx:"Microsoft Word 2007/2010/2013 XML" /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to docx:"Microsoft Word 2007-2013 XML" /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to docx:"MS Word 2007 XML" /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to docx:writer_MS_Word_97 /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to "docx:writer_MS_Word_2007" /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to docx:writer_OOXML /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to doc /pdf/pdf.pdf --outdir /pdf
libreoffice --headless --convert-to "docx:writer_MS_Word_2007" --outdir /pdf pdf.pdf
convert /pdf/pdf.pdf -> /pdf/pdf.docx using filter : writer_MS_Word_2007
Overwriting: /pdf/pdf.docx
Error: Please verify input parameters... (SfxBaseModel::impl_store <file:///pdf/pdf.docx> failed: 0x81a(Error Area:Io Class:Parameter Code:26))
libreoffice --infilter="writer_pdf_import" --convert-to docx --outdir /pdf /pdf/pdf.pdf
并返回以下消息:
convert /pdf/pdf.pdf -> /pdf/pdf.docx using filter : Office Open XML Text
Overwriting: /pdf/pdf.docx
我可以看到它需要--infilter--
参数,因为输入文件是PDF。
但是,它使用的是Office Open XML Text
筛选器,我需要将它切换到Microsoft Word 2007-2013 XML
,我该怎么做呢?
我已经试过这些了,但不起作用:
libreoffice --infilter="writer_pdf_import" --convert-to docx:"Microsoft Word 2007-2013 XML" --outdir /pdf /pdf/pdf.pdf
libreoffice --infilter="writer_pdf_import" --convert-to "docx:Microsoft Word 2007-2013 XML" --outdir /pdf /pdf/pdf.pdf
libreoffice --infilter="writer_pdf_import" --convert-to "docx:writer_MS_Word_2007" --outdir /pdf /pdf/pdf.pdf
libreoffice --infilter="writer_pdf_import" --convert-to docx:"writer_MS_Word_2007" --outdir /pdf /pdf/pdf.pdf
libreoffice --infilter="writer_pdf_import" --convert-to docx:writer_MS_Word_2007 --outdir /pdf /pdf/pdf.pdf
他们总是返回这条消息(同上):
convert /pdf/pdf.pdf -> /pdf/pdf.docx using filter : writer_MS_Word_2007
Overwriting: /pdf/pdf.docx
Error: Please verify input parameters... (SfxBaseModel::impl_store <file:///pdf/pdf.docx> failed: 0x81a(Error Area:Io Class:Parameter Code:26))
我终于想出了变通办法。
希望这对任何有同样问题的人都有用。
我做了一个实验,通过从这个列表中逐一尝试可能的单词过滤器,有4次成功的尝试。
libreoffice --headless --infilter="writer_pdf_import" --convert-to docx --outdir /pdf /pdf/pdf.pdf
libreoffice --headless --infilter='writer_pdf_import' --convert-to docx:"MS Word 2007 XML" --outdir /pdf /pdf/pdf.pdf
libreoffice --headless --infilter='writer_pdf_import' --convert-to doc:"MS Word 2007 XML" --outdir /pdf /pdf/pdf.pdf
libreoffice --headless --infilter="writer_pdf_import" --convert-to doc --outdir /pdf /pdf/pdf.pdf
libreoffice --headless --infilter='writer_pdf_import' --convert-to doc:"<enter_filter_name_here>" --outdir /pdf /pdf/pdf.pdf
问题内容: 如何将Word文档转换为PDF,其中文档包含各种内容,例如表格。尝试使用iText时,原始文档看起来与转换后的PDF不同。有没有我可以使用的开源API /库,而不是调用可执行文件? 问题答案: 这是一项艰巨的任务,如果您想要完美的结果(如果不使用Word则不可能),则难度就更大了,因为仅使用纯Java即可为您完成所有操作且都是开源的API数量为零,我相信( 更新:我错了,请参见下文 )
问题内容: 我已经使用htmldoc一段时间了,但是遇到了一些相当严重的限制。我需要最终解决方案才能在Linux机器上工作。我将从Perl应用程序调用此库/实用程序/应用程序,因此任何Perl接口都将是一个奖励。 问题答案: 注意:此答案来自2008年,现在可能不正确;请检查其他答案 PrinceXML是我见过的最好的XML(它解析常规HTML以及XML / XHTML)。最好吗?好吧,它通过了a
问题内容: **我在“ thepic”变量中有位图,它是位图类型。 问题答案: 您可以通过这种方式执行…您必须下载itextpdf-5.3.2.jar文件并将其附加到您的项目中。
本文向大家介绍如何在Java中将PDF转换为字节数组?,包括了如何在Java中将PDF转换为字节数组?的使用技巧和注意事项,需要的朋友参考一下 您可以使用FileInputStream类的方法从PDF文件中读取数据,该方法需要字节数组作为参数。 示例 样本.pdf
问题内容: 如何以编程方式将SVG文件转换为PDF?(在生成PDF之前,我需要在某些方面进行更改,因此仅使用工具进行预转换就不够了。) 理想情况下,使用Java但Perl或PHP也可以。 显然,我基本上是在考虑使用Java的Apache FOP和Batik。但是,无论我搜索多长时间,都无法找到有关该操作方法的简单介绍。诸如SVGConverter之类的内容具有“为能够转换部分或全部GraphicC
问题内容: 将PDF文档转换为HTML在浏览器中查看的最佳解决方案是什么?该站点有多个PDF文档,访问者可以单击HTML格式的视图,并且应在屏幕上以HTML文件的形式查看。 运行PHP,Linux,Apache的标准网站。 问题答案: pdftohtml可以正常工作:快速,稳定,但是html结果充其量是丑陋的。我已经在有很多工作简历的网站上使用了很长时间。 但是,这是提取文本内容的好方法。 或Go