当前位置：首页 > 面试题库 >

使用python从XML提取文本

和选

2023-03-14

问题内容：

我有这个示例xml文件

<page>
  <title>Chapter 1</title>
  <content>Welcome to Chapter 1</content>
</page>
<page>
 <title>Chapter 2</title>
 <content>Welcome to Chapter 2</content>
</page>

我喜欢提取标题标签和内容标签的内容。

使用模式匹配或使用xml模块，哪种方法最适合提取数据。还是有更好的方法来提取数据。

问题答案：

特别是已经有一个内置的XML库ElementTree。例如：

>>> from xml.etree import cElementTree as ET
>>> xmlstr = """
... <root>
... <page>
...   <title>Chapter 1</title>
...   <content>Welcome to Chapter 1</content>
... </page>
... <page>
...  <title>Chapter 2</title>
...  <content>Welcome to Chapter 2</content>
... </page>
... </root>
... """
>>> root = ET.fromstring(xmlstr)
>>> for page in list(root):
...     title = page.find('title').text
...     content = page.find('content').text
...     print('title: %s; content: %s' % (title, content))
...
title: Chapter 1; content: Welcome to Chapter 1
title: Chapter 2; content: Welcome to Chapter 2

类似资料：

从python中的xml文档中提取文本

问题内容：这是示例xml文档：我想提取文本而不指定元素，我该怎么做，因为我有10个这样的文档。我想要这样做是因为我的问题是用户正在输入一个我不知道的单词，必须在其各自文本部分的所有10个xml文档中进行搜索。为此，我应该在不知道元素的情况下知道文本的位置。所有这些文档都不同的另一件事。请帮忙！！问题答案：您可以简单地去除所有标签：但是，如果您只想在Linux中搜索文件中的某些文本，则可
使用Python ElementTree提取XML标记中的文本

我有一个包含数万个XML文件（小文件）的语料库，我正在尝试使用Python并提取其中一个XML标记中包含的文本，例如，body标记之间的所有内容，例如：然后编写一个包含此字符串的文本文档，然后向下移动XML文件列表。我正在使用effbot的ELementTree，但找不到正确的命令/语法来做到这一点。我找到了一个使用迷你DOM的dom.getElementsByTagName的网站，但我不确定
使用Python从HTML文件中提取文本

问题内容：我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为
使用Python中的PDFMiner从PDF文件提取文本？

问题内容：我正在寻找有关如何使用带有Python的PDFMiner从PDF文件提取文本的文档或示例。看来PDFMiner更新了他们的API，我发现的所有相关示例都包含过时的代码（类和方法已更改）。我发现的那些使从PDF文件提取文本的任务更加容易的库正在使用旧的PDFMiner语法，因此我不确定如何执行此操作。照原样，我只是在查看源代码，以查看是否可以解决。问题答案：这是一个使用当前版
如何使用Python ElementTree提取xml属性

问题内容：对于：我如何获得“价值”？引发错误。问题答案：这将找到名为的元素的第一个实例，并返回该属性的值。
从xml中提取值

Q非常业余的程序员在这里，寻求你的帮助。我必须经常编辑这样的xml文件使用一个相当复杂的正则表达式搜索和替换过程，我只能提取标记属性的值。（这就是我所关心的）。但是这很耗时，而且在Python中必须有非常简单的方法来查找属性标记="SOME_TEXT"部分并将所有值放入一个数组中，然后打印出该数组（到文件中）。但是我无法弄清楚：（我正在寻找一种不包括导入任何类型的XML库的方法，因为我想让

相关阅读

使用Python从HTML提取数据使用Python从KML BatchGeo文件中提取坐标使用python从JSON文件中提取部分数据无法使用JAVA从网站提取xml数据 Python从文件中提取数据

相关文章

VB.Net XML文档处理 R语言XML文件 Solr添加文档（XML)Eclipse 创建XML文件 Python linecache模块用法：随机读取文件指定行

相关问答

如何使用BeautifulSoup和python从div标记中提取文本从xml标记中提取QString 如何使用Selenium和Python从多个div类中提取文本从文件读取xml Python/Selenium-无法从文本框中提取文本

相关工具

中文 Python 自动文字提示列表 XML Worker Mini-XML xml-utilities

相关文档

Python 取证中文教程 Java XML 中文文档 XML 中文教程 Python 文本处理 StackExchange.Redis 中文使用文档