当前位置: 首页 > 知识库问答 >
问题:

在Python中将ppt文件转换为pptx

阳德润
2023-03-14

目标:我需要从表中提取文本(列名称为姓名、地址、联系电话、电子邮件等)。ppt文件。为此,我采用了以下方法:

我皈依了。将ppt文件转换为pdf,然后使用PDFminer从pdf中提取数据。从pdf中提取的文本不使用任何分隔符分隔。由于很难区分此表中的其他字段和名称。

我正在研究的可能解决方案:

  1. 皈依。下载ppt文件。pptx
  2. 解析的xml。获取格式化文本的pptx文件

我被困在文件格式从. ppt转换到. pptx的第一步。我找不到任何解决方案转换. ppt文件格式到. pptx在python格式。

共有2个答案

松秦斩
2023-03-14

对于MacOS Homebrew用户:安装Apache Tika(brew安装tika

命令行界面的工作原理如下:

tika --text something.ppt > something.txt

要在python脚本中使用它:

import os
os.system("tika --text temp.ppt > temp.txt")

你将能够做到这一点,这是迄今为止我唯一的解决方案。

汪胡非
2023-03-14

我已经创建了这个代码,希望它能为您工作:

    import win32com.client
    PptApp = win32com.client.Dispatch("Powerpoint.Application")
    PptApp.Visible = True
    PPtPresentation = PptApp.Presentations.Open(r'D:\ppt\sample.ppt')
    PPtPresentation.SaveAs(r'D:\ppt\final.pptx', 24)
    PPtPresentation.close()
    PptApp.Quit()
 类似资料:
  • 问题内容: 我已经将图像转换成一个csv文件,它就像一个矩阵,但我希望它是一行。如何将数据集中的所有图像转换成一个csv文件(每张图像转换成一行)。 这是我使用的代码: 问题答案: 从您的问题中,我想您想知道。您要添加 就在您的np.savetxt调用之前。它将仅将数组展平为一个维度,然后应将其打印为一行。 您剩下的问题尚不清楚,这意味着您的目录中包含jpeg图像,并且您需要一种通读所有jpeg图

  • 问题内容: 我在尝试将文本文件转换为以逗号分隔的列表列表时遇到麻烦。基本上,我想要: 看起来像: 这是我到目前为止的代码: 但是,这使我得到以下结果: 我只希望能够删除该第一部分,然后将其替换为第二部分。我怎样才能做到这一点? 问题答案: 也许:

  • 问题内容: @Before可能会有一些重复的问题建议,我不认为可能是这种情况,请先阅读本章,我会尽量简短。标题给出了基本思路。 这是一个XML示例(案例1): 这是一个XML示例(案例2): 我从Google借用了这种XML,无论如何,我的对象并不总是相同的,有时还有像case2这样的额外元素。现在,我想从两种情况下生成这样的CSV: 这第一行是标头,它也应包含在csv中。我今天有一些有用的指向s

  • 问题内容: 如何加载YAML文件并将其转换为Python JSON对象? 我的YAML文件如下所示: 问题答案: 你可以使用PyYAML 并在ipython控制台中:

  • 问题内容: 有什么方法可以将File对象转换为MultiPartFile?这样我就可以将该对象发送到接受接口对象的方法? 问题答案: 存在MockMultipartFile为此目的。如你的代码段中所示,如果文件路径已知,则以下代码对我有用。

  • 问题内容: 我是使用subprocess.Popen()从进程的输出中获得的: 对我来说,它似乎不是有效的json。我已经使用和,但是没有运气。有人可以在正确的方向帮助我吗?提前致谢。 问题答案: 确实,导出ECMA脚本而不是JSON的旧版本。根据此debian错误报告,升级1.4.8应该会给您适当的JSON。另请参阅项目CHANGELOG: 现在,通过正确引用xport的键,xport的JSON