我正在阅读一个word文件,使用Python在文档中有许多表。我只需要从某些表中提取数据,这取决于它们出现的部分。有没有办法通过文件搜索,到达某一行,读取该行后面出现的表格?
例如,如果文档这个词类似于:
1
2
3
[表格]
4
5
6
[表格]
我能在“6”之后阅读表格吗?
读取“第二个表”不起作用,因为出现在该表之前的表的数量是任意的;我需要读它,因为它出现在“6”之后。
这里的代码可能很有趣:https://github.com/python-openxml/python-docx/issues/276#issuecomment-199502885.
我相信,您正在寻找的是一种按照文档中块级项出现的顺序迭代它们的方法。Word文档有两种类型的块级项目,段落和表格。上面链接中的函数允许您按文档顺序迭代这些。
OOXML包含以下代码: 我看到里面嵌着OLEObject。但不确定如何阅读它的内容。非常感谢任何帮助。
我试图找出word文档中是否存在字体为2的内容。然而,我一直无法做到这一点。首先,我试着阅读一个示例word文档中每个单词的字体,该文档只有一行和7个单词。我没有得到正确的结果。 这是我的代码: 但是,上面的代码总是将字体大小增加一倍。i、 e.如果文档中的实际字体大小为12,则输出24,如果实际字体大小为8,则输出16。 这是从word文档中读取字体大小的正确方法吗??
我已经成功地开发了一项服务,在该服务中,我阅读了在泽西岛以多部分形式上传的文件。以下是我所做工作的一个极其简化的版本: 这很好,但我有一个新的要求。除了上传的文件,我还需要处理任意数量的资源。假设这些是图像文件。 我想我应该为客户端提供一个表单,其中包含文件的一个输入,第一个图像的一个输入,以及允许向表单添加更多输入的按钮(使用AJAX或简单的纯JavaScript)。 因此,用户可以在表单中附加
问题内容: 如何读取和处理DOCX文件中表格的每个单元格的内容? 我在Windows 7和PyWin32上使用Python 3.2来访问MS-Word文档。 我是一个初学者,所以我不知道访问表格单元格的正确方法。到目前为止,我只是这样做: 问题答案: 这是在Python 2.7中对我有效的方法: 要查看您的文档有多少张表: 然后,您可以通过索引选择所需的表。请注意,与python不同,COM索引从
我正在尝试从C#中的文档文件中读取文本 我无法在C#中创建新文档。 我尝试使用“using microsoft.office.interop.word”或“using system.windows.documents”,但它无法识别代码“Document doc=new Document”。 此外,如何从.docx文件中读取文本? 会有什么问题?TNX
我正在开发一个程序,需要从MS Word文档中提取两个图像,以便在另一个文档中使用它们。我知道图像的位置(文档中的第一个表),但当我试图从表中提取任何信息(即使只是纯文本)时,我会得到空单元格。 这是我想从中提取图像的Word文档。我想从第一页(第一个表,第0行和第1行,第2列)中提取“Rentel”图像。 我尝试了以下代码: 这只会给我空话。。。 我已经读过这篇讨论和这篇文章,问题可能是“包含在