当前位置: 首页 > 知识库问答 >
问题:

如何使用apachepoi从ppt、pptx文件(页脚、幻灯片编号除外)中提取文本?

海嘉赐
2023-03-14

我知道如何使用apache poi从ppt文件中提取文本,如下所示

        InputStream fis=new FileInputStream("abcd.ppt");
        HSLFSlideShow show=new HSLFSlideShow(fis);
        SlideShow ss=new SlideShow(show);
        Slide[] slides=ss.getSlides();
        StringBuilder builder = new StringBuilder();
        for(int x=0; x < slides.length; x++)
        {
            TextRun[] runs = slides[x].getTextRuns();
            for(int j=0; j<runs.length; j++) {
                TextRun run = runs[j];
                if(run != null) {
                    String text = run.getText();
                    builder.append(text);
                }
            }
        }

但它提取了所有页脚,幻灯片编号,我不想要

那么如何提取除页脚和幻灯片编号以外的文本

预先感谢

共有1个答案

罗伟志
2023-03-14

我建议你看看J现状。其中一个示例显示了如何从所有幻灯片中提取所有图像和文本:http://www.independentsoft.de/jpresentation/tutorial/exportallslides.html

API接缝非常容易。

 类似资料:
  • 问题内容: 到目前为止,我只有一个有效的代码可以从ppt幻灯片笔记中检索文本 但是,如何从pptx幻灯片笔记中检索文本? 问题答案: 经过不断的反复试验,找到了解决方案。

  • 到目前为止,我只有一个从ppt幻灯片笔记中检索文本的工作代码 但如何从pptx幻灯片笔记中检索文本呢?

  • 我有一个. PPT (PowerPoint,可转换为ODP或PPTX)文件,每张幻灯片上都有演讲者注释。我想将整个演示文稿提取为动态内容,这样我就可以创建一个演讲者备忘单,在我讲话时在手机或桌子上运行(幻灯片缩略图和演讲者注释)。我经常这样做,以至于讨厌手工操作。 这几乎很容易

  • 我试图建立一个相当粗糙的工具,将ppt/pptx文件转换为超文本标记语言格式。 我发现,不幸的是,apache poi没有为处理Power point文件提供统一的编程模型,必须编写代码来解析每种格式。 我觉得pptx文件支持比ppt支持有限得多。我面临的一个问题是获取有关pptx幻灯片背景(颜色、图案、背景图像)的信息。 我发现XSLFbackground(pptx api)类比其相应的背景类(

  • 我想使用Apache POIJava库将pptx幻灯片拆分为几个幻灯片,每个幻灯片只包含一张幻灯片。 创建一个新的XMLSlideSheet并添加幻灯片,如在几个地方(例如 https://www.tutorialspoint.com/apache_poi_ppt/apache_poi_ppt_merging.htm)所述,对我来说不起作用,因为某些布局没有正确导入:字体被更改,文本的位置被更改等

  • 我想创建pptx文件,使用ApachePOI在幻灯片中链接视频。 我有一个Apache示例代码示例 POI-4.1.2\src\scalchpad\testcase\org\apache\poi\hslf\Model\TestMovie Shape。 使用这个例子,我可以创建. ppt文件,但它不是创建. pptx文件。 此外,使用此示例时,媒体控件不可见。