当前位置: 首页 > 知识库问答 >
问题:

如何获取Word/Excel文档的页数/张数?

邹博明
2023-03-14

在我的项目中,我有一个显示Word文档页数的要求。doc,。docx)文件和Excel文档中的工作表数量(。xls,。xlsx)。我试着去阅读。docx文件使用Docx4j,但性能很差,但我只需要字数,并尝试使用Apache POI。我得到一个错误,类似于:

"trouble writing output: Too many methods: 94086; max is 65536. By package:" 

我想知道是否有任何付费/开源库可用于Android。

共有1个答案

孟茂学
2023-03-14

没有办法显示MS Word文件的确切页数,因为不同的用户有不同的页数。确切数量取决于打印机设置、纸张设置、字体、可用图像等。

尽管如此,您仍然可以对二进制文件执行以下操作:

    打开文件使用 1000000000000000000000000000000000000000000000000
  • 仅提取文件信息块,因为它是在构造函数 HWPF文档Core 中完成的
  • 使用文件中的信息创建文档属性块,因为它是在 HWPF 文档的构造器中完成的
  • 获取 DOP 的属性 cPg 的值: 文档属性::获取CPg()

此字段的描述是:“一个有符号整数值,指定主文档中最后计算或估计的页数,具体取决于fExactCWords和fIncludeSubocsInStats的值。”

对于DOCX/XLSX文档,您需要使用SAX或StAX方法访问相同的属性。

 类似资料:
  • 我使用自动化对Word文档进行了大量更改,然后运行了一个VBA宏,其中包括检查文档是否超过一定的页数。 我使用获取页数,但此方法返回的结果不正确。我想这是因为Word还没有更新文档的分页以反映我所做的更改。 也存在同样的问题。

  • 问题内容: 有没有一种方法可以使用Python有效地获取Word文档(.doc,.docx)的页数? 对于.odt文件? 我想将此用于基于Linux的Web2py的Web应用程序。 谢谢 ! 问题答案: 您可以读取该值 来自docx包中的docProps / app.xml或 在odt包中形成meta.xml。 如果这些值不存在(它们是可选的),则必须对整个文档进行计算,实际上是执行渲染,这要困难

  • 有没有办法用Python高效地获取word文档(.doc、.docx)的页数? 还有一次。odt文件? 我想把它用于Linux上基于Web2py的web应用程序。 非常感谢。

  • FPDI易于使用和安装(只需提取文件并调用PHP脚本即可),但FPDI不支持许多压缩技术。然后返回一个错误: FPDF错误:此文档(test_1.pdf)可能使用了FPDI附带的免费解析器不支持的压缩技术。 这将在流中打开PDF文件,并搜索某种类型的字符串,包含pagecount或类似的内容。 (查找)不起作用,因为只有少数文档内部有参数,所以大多数情况下它不会返回任何内容。来源。 (查找)没有得

  • OOXML包含以下代码: 我看到里面嵌着OLEObject。但不确定如何阅读它的内容。非常感谢任何帮助。

  • 注:1)有两个空白页,第3页和第4页。2)页末和页首没有段落。