python内置了许多html和xml库,很难相信不支持实际的HTML解析。
我已经找到了很多很棒的第三方库来执行此任务,但是这个问题与python标准库有关。
要求:
)Hello, <i>World</i>!
)奖励积分:
<big>does anyone here know <html ???
这是我要求的90%解决方案。这适用于我尝试过的有限的HTML,但是正如每个人都可以清楚地看到的那样,这并不十分可靠。由于我是通过盯着文档查看15分钟并编写一行代码来完成此操作的,所以我认为我可以向社区咨询类似但更好的解决方案…
from xml.etree.ElementTree import fromstring
DOM = fromstring("<html>%s</html>" % html.replace(' ', ' '))
可靠地解析HTML是一个相对较新的开发(尽管看起来有些奇怪)。因此,标准库中绝对没有任何内容。
HTMLParser的可能 似乎
是处理HTML的方式,但它不是-
它不能在很多非常普通的HTML的,虽然可以解决这些故障总会有你有没有想过的另一种情况(如果你真的成功在处理所有故障时,您基本上都会重新创建BeautifulSoup)。
实际上,只有3种合理的方法可以解析HTML(在Web上可以找到):lxml.html,BeautifulSoup和html5lib。lxml是目前为止最快的,但安装起来有点棘手(在App
Engine这样的环境中是不可能的)。html5lib基于HTML
5指定解析的方式;尽管在实践上与其他两个类似,但在解析损坏的HTML的方式上可能更“正确”(它们都对相同的HTML进行相同的解析)。它们在解析损坏的HTML方面都做得不错。尽管我发现它的API不必要地古怪,但是BeautifulSoup可以很方便。
问题内容: 目前,我正在开发一项功能,该功能涉及解析从另一产品收到的XML。我决定对一些实际的客户数据进行一些测试,看起来其他产品正在允许来自用户的输入被认为是无效的。无论如何,我仍然必须尝试找出一种解析它的方法。我们正在使用,但输入出现错误,如下所示。 如你所知,说明中包含似乎是无效标签的内容。现在,此描述标签被称为是叶子标签,并且其中不应包含任何嵌套标签。无论如何,这仍然是一个问题,并且会在
问题内容: 我想使用Javascript 解析此内容。数据如下所示: 在线上的每个教程都教您如何使用Twitter解析JSON,但是我不太确定如何使用JSON解析。 我想在一个网站上进行设置,以查看NFL团队在一个有趣的项目中获得的分数,以及有关解析JSON的良好学习体验,因为我不太在乎Twitter的东西。 这可能吗?有什么好的入门教程吗?甚至一些起始代码? 问题答案: 一般来说,您可以使用 J
问题内容: 我有以下JSON字符串来自外部输入源: 这是格式错误的JSON字符串(“ id”和“ value”必须用引号引起来),但无论如何我都需要对其进行解析。我已经尝试了simplejson和json- py,但似乎无法将其设置为解析此类字符串。 我正在Google App引擎上运行Python 2.5,因此任何基于C的解决方案(例如python-cjson)都不适用。 除了上面列出的JSON
问题内容: 可以说我有以下json 我想将其解码为以下结构 像这样 这给了我错误 如果我要手动解析它,我会这样做 但是,当时间值来自json字符串时 ,我如何使解码器以上述格式解析它? 问题答案: 在这种情况下,您需要实现自定义编组和非编组功能。 通过遵循json包的Golang文档中的示例,您将获得以下内容:
TLV格式数据解析。 什么是TLV数据?传送门:http://blog.csdn.net/chexlong/article/details/6974201 在标准的TLV数据解析过程中会遇到很多问题。在目前的开源的C/C 的项目中代码十分的庞大,整合起来十分不方便并没有OC的代码,故作者封装了这个类库供需要使用TLV格式数据的同学们学习使用。 [Code4App.com]
2)尝试通过执行两个string_replace来修复JSON字符串 需要注意的一点是,JSON字符串很长(大约50KB),并且包含很多条目。