当前位置：首页 > 面试题库 >

从python中的xml文档中提取文本

梁建德

2023-03-14

问题内容：

这是示例xml文档：

<bookstore>
    <book category="COOKING">
        <title lang="english">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>300.00</price>
    </book>

    <book category="CHILDREN">
        <title lang="english">Harry Potter</title>
        <author>J K. Rowling </author>
        <year>2005</year>
        <price>625.00</price>
    </book>
</bookstore>

我想提取文本而不指定元素，我该怎么做，因为我有10个这样的文档。我想要这样做是因为我的问题是用户正在输入一个我不知道的单词，必须在其各自文本部分的所有10个xml文档中进行搜索。为此，我应该在不知道元素的情况下知道文本的位置。所有这些文档都不同的另一件事。

请帮忙！！

问题答案：

您可以简单地去除所有标签：

>>> import re
>>> txt = """<bookstore>
...     <book category="COOKING">
...         <title lang="english">Everyday Italian</title>
...         <author>Giada De Laurentiis</author>
...         <year>2005</year>
...         <price>300.00</price>
...     </book>
...
...     <book category="CHILDREN">
...         <title lang="english">Harry Potter</title>
...         <author>J K. Rowling </author>
...         <year>2005</year>
...         <price>625.00</price>
...     </book>
... </bookstore>"""
>>> exp = re.compile(r'<.*?>')
>>> text_only = exp.sub('',txt).strip()
>>> text_only
'Everyday Italian\n        Giada De Laurentiis\n        2005\n        300.00\n
  \n\n    \n        Harry Potter\n        J K. Rowling \n        2005\n        6
25.00'

但是，如果您只想在Linux中搜索文件中的某些文本，则可以使用grep：

burhan@sandbox:~$ grep "Harry Potter" file.xml
        <title lang="english">Harry Potter</title>

如果要搜索文件，请使用grep上面的命令，或打开文件并在Python中搜索：

>>> import re
>>> exp = re.compile(r'<.*?>')
>>> with open('file.xml') as f:
...     lines = ''.join(line for line in f.readlines())
...     text_only = exp.sub('',lines).strip()
...
>>> if 'Harry Potter' in text_only:
...    print 'It exists'
... else:
...    print 'It does not'
...
It exists

类似资料：

提取 XML 文档（Extracting XML Document）

以下是从XML文档中提取内容和元数据的程序 - import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; impor
使用python从XML提取文本

问题内容：我有这个示例xml文件我喜欢提取标题标签和内容标签的内容。使用模式匹配或使用xml模块，哪种方法最适合提取数据。还是有更好的方法来提取数据。问题答案：特别是已经有一个内置的XML库。例如：
如何从PDF文档中提取文本？

问题内容：如何使用PHP 从PDF文档中提取文本？（我不能使用其他工具，我没有root用户访问权限）我发现一些函数可用于纯文本，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf- data-extraction-437.html 问题答案：下载 c
利用Jena库从RDF/XML文档中提取URI

其中url是RDF/XML web文档。
从python中的MS Word文件中提取文本

问题内容：为了在python中处理MS Word文件，有python win32扩展名，可以在Windows中使用。我该如何在linux中做同样的事情？有图书馆吗？问题答案：您可以对antiword进行子过程调用。Antiword是一个Linux命令行实用程序，用于从word doc中转储文本。适用于简单文档（显然会丢失格式）。它可以通过apt（可能是RPM）获得，也可以自己编译。
从pdf文档中提取图像

我知道以前也有人问过类似的问题，但是这些问题已经过时了（有些问题可以追溯到2006年）。我有一个. net 3.5应用程序（w/iTextSharp 5），我正在转换为. net核心（iText 7），它从联邦快递跟踪文档中提取签名，通过SOAP服务以字节[]数组发送。这段代码多年来一直运行良好，只是略有更新。从联邦快递返回的PDF文档中有几个图像，但签名块不是110x46图像（这是pdf文件中

相关阅读

使用Python从HTML文件中提取文本 Python从文件中提取数据使用Python中的PDFMiner从PDF文件提取文本？从主文档中的JavaScript获取IFrame的文档 python beautifulsoup iframe文档html提取

相关文章

Java DOM4J解析器创建XML文档 Java DOM4J解析器查询XML文档 Java DOM4J解析器解析XML文档 Java XPath解析器查询XML文档 Java XPath解析器解析XML文档

相关问答

python：从zip存档中的所有文件中提取特定行从带有变量的生成PDF文档中提取文本 Python/Selenium-无法从文本框中提取文本从大文件中提取文本用python和scrapy从web中提取文本

相关工具

Ext4.1中文API文档 jQueryAPI参考文档中文版中文 Python Qt 简体中文文档翻译项目《Python Cookbook》第三版中文版

相关文档

Java XML 中文文档 Python XlsxWriter 中文文档 Python 中文官方文档 v2.7 Selenium with Python 中文翻译文档 OpenCV-Python 中文官方文档 v4.1.2