当前位置：首页 > 面试题库 >

使用Python从HTML文件中提取文本

宋畅

2023-03-14

问题内容：

我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。

我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为文本中的撇号，就像将浏览器内容粘贴到记事本中一样。

更新 html2text看起来很有希望。它正确处理HTML实体，并忽略JavaScript。但是，它不能完全产生纯文本；它产生markdown，然后必须将其转换为纯文本。它没有示例或文档，但是代码看起来很干净。

问题答案：

html2text是一个Python程序，在此方面做得很好。

类似资料：

使用Python中的PDFMiner从PDF文件提取文本？

问题内容：我正在寻找有关如何使用带有Python的PDFMiner从PDF文件提取文本的文档或示例。看来PDFMiner更新了他们的API，我发现的所有相关示例都包含过时的代码（类和方法已更改）。我发现的那些使从PDF文件提取文本的任务更加容易的库正在使用旧的PDFMiner语法，因此我不确定如何执行此操作。照原样，我只是在查看源代码，以查看是否可以解决。问题答案：这是一个使用当前版
使用python从XML提取文本

问题内容：我有这个示例xml文件我喜欢提取标题标签和内容标签的内容。使用模式匹配或使用xml模块，哪种方法最适合提取数据。还是有更好的方法来提取数据。问题答案：特别是已经有一个内置的XML库。例如：
从python中的MS Word文件中提取文本

问题内容：为了在python中处理MS Word文件，有python win32扩展名，可以在Windows中使用。我该如何在linux中做同样的事情？有图书馆吗？问题答案：您可以对antiword进行子过程调用。Antiword是一个Linux命令行实用程序，用于从word doc中转储文本。适用于简单文档（显然会丢失格式）。它可以通过apt（可能是RPM）获得，也可以自己编译。
从HTML Java提取文本

问题内容：我正在开发一个程序，该程序可以下载HTML页面，然后选择一些信息并将其写入另一个文件。我想提取段落标签之间的信息，但是我只能获得段落的一行。我的代码如下：我试图添加另一个while循环，这样可以告诉程序继续写入文件，直到该行包含该标记为止；问题答案： so 我真正喜欢使用的另一个html解析器是jsoup。您可以在2行代码中获得所有元素。然后再将其写到文件中或者，如果您希望
Python从文件中提取数据

问题内容：我试图提取具有特定文本文件之间的文本：然后将其转储到文本文件中，以便谢谢您的帮助。问题答案：这对我来说足够好了。您的样本数据在一个名为“ data.txt”的文件中，输出将进入“ result.txt”
使用Python从KML BatchGeo文件中提取坐标

问题内容：我已将一些地址上传到BatchGeo，并下载了要从中提取坐标的结果KML文件。我设法在这里在线整理了混乱的文本文件，但是我不知道如何解析它以提取坐标。似乎有几个适用于python的kml库，但在文档方面却没有太多（例如pyKML）。通过本教程，我已经了解了这一点，并创建了一个’lxml.etree._ElementTree’对象，但不确定其属性：这给出了错误：那么如何获取坐标列表

使用Python从HTML文件中提取文本

相关阅读

相关文章

相关问答

相关工具

相关文档