当前位置：首页 > 面试题库 >

如何使用标准库在python中解析格式错误的HTML

鲁旭

2023-03-14

问题内容：

python内置了许多html和xml库，很难相信不支持实际的HTML解析。

我已经找到了很多很棒的第三方库来执行此任务，但是这个问题与python标准库有关。

要求：

仅使用Python标准库组件（任何2.x版本）
DOM支持
处理HTML实体（ ）
手柄部分文件（如：Hello, <i>World</i>!）

奖励积分：

XPATH支持
处理未封闭/格式错误的标签。（<big>does anyone here know <html ???

这是我要求的90％解决方案。这适用于我尝试过的有限的HTML，但是正如每个人都可以清楚地看到的那样，这并不十分可靠。由于我是通过盯着文档查看15分钟并编写一行代码来完成此操作的，所以我认为我可以向社区咨询类似但更好的解决方案…

from xml.etree.ElementTree import fromstring
DOM = fromstring("<html>%s</html>" % html.replace('&nbsp;', '&#160;'))

问题答案：

可靠地解析HTML是一个相对较新的开发（尽管看起来有些奇怪）。因此，标准库中绝对没有任何内容。
HTMLParser的可能似乎
是处理HTML的方式，但它不是-
它不能在很多非常普通的HTML的，虽然可以解决这些故障总会有你有没有想过的另一种情况（如果你真的成功在处理所有故障时，您基本上都会重新创建BeautifulSoup）。

实际上，只有3种合理的方法可以解析HTML（在Web上可以找到）：lxml.html，BeautifulSoup和html5lib。lxml是目前为止最快的，但安装起来有点棘手（在App
Engine这样的环境中是不可能的）。html5lib基于HTML
5指定解析的方式；尽管在实践上与其他两个类似，但在解析损坏的HTML的方式上可能更“正确”（它们都对相同的HTML进行相同的解析）。它们在解析损坏的HTML方面都做得不错。尽管我发现它的API不必要地古怪，但是BeautifulSoup可以很方便。

类似资料：

Java-如何解析无效（格式错误/格式错误）的XML？

问题内容：目前，我正在开发一项功能，该功能涉及解析从另一产品收到的XML。我决定对一些实际的客户数据进行一些测试，看起来其他产品正在允许来自用户的输入被认为是无效的。无论如何，我仍然必须尝试找出一种解析它的方法。我们正在使用，但输入出现错误，如下所示。如你所知，说明中包含似乎是无效标签的内容。现在，此描述标签被称为是叶子标签，并且其中不应包含任何嵌套标签。无论如何，这仍然是一个问题，并且会在
使用Javascript解析格式错误的JSON

问题内容：我想使用Javascript 解析此内容。数据如下所示：在线上的每个教程都教您如何使用Twitter解析JSON，但是我不太确定如何使用JSON解析。我想在一个网站上进行设置，以查看NFL团队在一个有趣的项目中获得的分数，以及有关解析JSON的良好学习体验，因为我不太在乎Twitter的东西。这可能吗？有什么好的入门教程吗？甚至一些起始代码？问题答案：一般来说，您可以使用 J
如何使用Python解析错误的JSON？

问题内容：我有以下JSON字符串来自外部输入源：这是格式错误的JSON字符串（“ id”和“ value”必须用引号引起来），但无论如何我都需要对其进行解析。我已经尝试了simplejson和json- py，但似乎无法将其设置为解析此类字符串。我正在Google App引擎上运行Python 2.5，因此任何基于C的解决方案（例如python-cjson）都不适用。除了上面列出的JSON
如何从JSON解析非标准时间格式

问题内容：可以说我有以下json 我想将其解码为以下结构像这样这给了我错误如果我要手动解析它，我会这样做但是，当时间值来自json字符串时，我如何使解码器以上述格式解析它？问题答案：在这种情况下，您需要实现自定义编组和非编组功能。通过遵循json包的Golang文档中的示例，您将获得以下内容：
标准TVL格式数据解析

TLV格式数据解析。什么是TLV数据？传送门：http://blog.csdn.net/chexlong/article/details/6974201 在标准的TLV数据解析过程中会遇到很多问题。在目前的开源的C/C 的项目中代码十分的庞大，整合起来十分不方便并没有OC的代码，故作者封装了这个类库供需要使用TLV格式数据的同学们学习使用。 [Code4App.com]
在Java中解析格式错误的json

2）尝试通过执行两个string_replace来修复JSON字符串需要注意的一点是，JSON字符串很长（大约50KB)，并且包含很多条目。

相关阅读

Python标准库shutil模块使用方法解析如何使用标准Scala类在Scala中解析JSON？如何禁用Python中的标准错误流日志记录？Python中OLS的Newey-West标准错误？深入解析Go语言的io.ioutil标准库使用

相关文章

Jsoup 使用DOM解析HTML Python JSON的解析和创建 Linux日志文件的格式分析 Python格式化字符串 Matplotlib设置坐标轴格式

相关问答

HTTP解析错误，格式错误的请求-Ruby on Rails 如何解析格式HHmmssZ的OffsetTime 如何仅使用标准Python库向Python 2.7中的Tkinter添加URL图像？使用JAXB解组时格式错误的XML 带有Puma、HTTP解析错误、格式错误的请求的SSL

相关工具

标准TVL格式数据解析 ini格式解析解析html网页的数据 IOS中解析并显示Gif文件 Google地图JSP标签库

相关文档

C 标准库中文版 Go 语言标准库 Go 语言标准库中文文档 C 语言编码风格和标准用 JSON 构建 API 的标准指南