当前位置: 首页 > 知识库问答 >
问题:

如何使用Apache POI从pptx文件中提取数据?

顾高扬
2023-03-14

我正在使用XSLFPowerPointExtractor从pptx文件中提取文本。然而,pptx文件中的所有文本都以单个字符串的形式返回给我。我可以单独获取每张幻灯片上的文本吗?我对这个概念完全陌生,所以请给出详细的答案。

共有1个答案

麹耘豪
2023-03-14

我查阅了API文档,看起来要么全有,要么全无。API文档有一个名为getText()的方法,它返回所有幻灯片的完整文本,这正是您正在观察的行为。

再用谷歌搜索一下,我发现这样做的方法是使用另一个API,即XMLSlideShow。这使您可以逐张幻灯片访问演示文稿。

从那里,您可以访问不同的形状,包括可以从中读取文本的文本区域。事实上,这在另一个SO问题中得到了解释,我相信这将有助于您解决问题:如何使用apache poi获取pptx幻灯片注释文本?

 类似资料:
  • 我知道如何使用apache poi从ppt文件中提取文本,如下所示 但它提取了所有页脚,幻灯片编号,我不想要 那么如何提取除页脚和幻灯片编号以外的文本 预先感谢

  • 问题内容: 在某些情况下,我们可能需要从Word文档中获取文本以供将来在用户上传的文档中搜索字符串,例如在cv / resumes中进行搜索,并出现一个常见的问题,即如何获取文本,打开并阅读用户上载Word文档时,有一些有用的链接,但不能解决整个问题。我们需要在上载时获取文本并将文本保存在数据库中,以便在数据库中轻松搜索。 问题答案: class DocxConversion{ private $

  • 问题内容: 我知道那里也有类似的问题,但是我找不到能回答我的祷告的东西。我需要的是一种从MS-Word文件访问某些数据并将其保存在XML文件中的方法。在python- docx 上阅读无济于事,因为它似乎只允许一个人写入Word文档,而不是阅读。要准确呈现我的任务(或我选择如何执行任务的方式):我想在文档中搜索关键字或短语(文档包含表格),并从关键字/短语所在的表格中提取文本数据找到了。有人有什么

  • 在我的应用程序中,我下载了Android系统的扩展文件- 我尝试将APK扩展Zip库用作: 但是expansionFile总是空的。这个obb文件是用Jobb创建的,用于文件夹obb/file。拉链

  • 问题内容: 首先,这是用于家庭作业或…项目。 我很难理解如何在Java项目中将声音数据波绘制到图形上的想法。我必须使用UI完全从头开始进行此分配,因此基本上要制作.wav文件编辑器。 我遇到的主要问题是将声音数据放入要绘制的图形中。 目前,我正在随机绘制一组值。 到目前为止,我有一个微型程序正在运行并验证wav文件,使其实际上是wav文件。 我正在使用FileInputStream读取它并进行验证

  • 问题内容: 我有一个看起来像这样的csv文件 我想要一张桌子: 如果我使用,我会得到 吗?有什么优雅的方法吗? 问题答案: 您可以用来解析CSV文件,而不必担心自己解析。 PHP手册中的示例: