当前位置: 首页 > 知识库问答 >
问题:

如何使用python docx从word文档的某个部分读取表格?

颜嘉福
2023-03-14

我正在阅读一个word文件,使用Python在文档中有许多表。我只需要从某些表中提取数据,这取决于它们出现的部分。有没有办法通过文件搜索,到达某一行,读取该行后面出现的表格?

例如,如果文档这个词类似于:

1
2
3
[表格]
4
5
6
[表格]

我能在“6”之后阅读表格吗?

读取“第二个表”不起作用,因为出现在该表之前的表的数量是任意的;我需要读它,因为它出现在“6”之后。

共有1个答案

叶华皓
2023-03-14

这里的代码可能很有趣:https://github.com/python-openxml/python-docx/issues/276#issuecomment-199502885.

我相信,您正在寻找的是一种按照文档中块级项出现的顺序迭代它们的方法。Word文档有两种类型的块级项目,段落和表格。上面链接中的函数允许您按文档顺序迭代这些。

 类似资料:
  • OOXML包含以下代码: 我看到里面嵌着OLEObject。但不确定如何阅读它的内容。非常感谢任何帮助。

  • 我试图找出word文档中是否存在字体为2的内容。然而,我一直无法做到这一点。首先,我试着阅读一个示例word文档中每个单词的字体,该文档只有一行和7个单词。我没有得到正确的结果。 这是我的代码: 但是,上面的代码总是将字体大小增加一倍。i、 e.如果文档中的实际字体大小为12,则输出24,如果实际字体大小为8,则输出16。 这是从word文档中读取字体大小的正确方法吗??

  • 我已经成功地开发了一项服务,在该服务中,我阅读了在泽西岛以多部分形式上传的文件。以下是我所做工作的一个极其简化的版本: 这很好,但我有一个新的要求。除了上传的文件,我还需要处理任意数量的资源。假设这些是图像文件。 我想我应该为客户端提供一个表单,其中包含文件的一个输入,第一个图像的一个输入,以及允许向表单添加更多输入的按钮(使用AJAX或简单的纯JavaScript)。 因此,用户可以在表单中附加

  • 问题内容: 如何读取和处理DOCX文件中表格的每个单元格的内容? 我在Windows 7和PyWin32上使用Python 3.2来访问MS-Word文档。 我是一个初学者,所以我不知道访问表格单元格的正确方法。到目前为止,我只是这样做: 问题答案: 这是在Python 2.7中对我有效的方法: 要查看您的文档有多少张表: 然后,您可以通过索引选择所需的表。请注意,与python不同,COM索引从

  • 我正在尝试从C#中的文档文件中读取文本 我无法在C#中创建新文档。 我尝试使用“using microsoft.office.interop.word”或“using system.windows.documents”,但它无法识别代码“Document doc=new Document”。 此外,如何从.docx文件中读取文本? 会有什么问题?TNX

  • 我正在开发一个程序,需要从MS Word文档中提取两个图像,以便在另一个文档中使用它们。我知道图像的位置(文档中的第一个表),但当我试图从表中提取任何信息(即使只是纯文本)时,我会得到空单元格。 这是我想从中提取图像的Word文档。我想从第一页(第一个表,第0行和第1行,第2列)中提取“Rentel”图像。 我尝试了以下代码: 这只会给我空话。。。 我已经读过这篇讨论和这篇文章,问题可能是“包含在