当前位置：首页 > 面试题库 >

与使用lxml.html解析HTML时的InnerHTML等效

张鸿志

2023-03-14

问题内容：

我正在使用lxml.html解析网页的脚本。我当时做了很多的BeautifulSoup，但是由于速度快，现在正在尝试使用lxml。

我想知道该库中最明智的方法是执行与Javascript InnerHtml等效的操作，即检索或设置标签的完整内容。

<body>
<h1>A title</h1>
<p>Some text</p>
</body>

因此，InnerHtml为：

<h1>A title</h1>
<p>Some text</p>

我可以使用黑客（转换为字符串/正则表达式等）来完成此操作，但是我假设有一种正确的方法可以使用由于不熟悉而丢失的库来执行此操作。谢谢你的帮助。

编辑：感谢pobk如此迅速有效地向我展示了此方法。对于任何尝试相同的人，这就是我最终得到的结果：

from lxml import html
from cStringIO import StringIO
t = html.parse(StringIO(
"""<body>
<h1>A title</h1>
<p>Some text</p>
Untagged text
<p>
Unclosed p tag
</body>"""))
root = t.getroot()
body = root.body
print (element.text or '') + ''.join([html.tostring(child) for child in body.iterdescendants()])

请注意，lxml.html解析器将修复未关闭的标记，因此请注意是否存在问题。

问题答案：

您可以使用根节点的getchildren（）或iterdescendants（）方法获取ElementTree节点的子节点：

>>> from lxml import etree
>>> from cStringIO import StringIO
>>> t = etree.parse(StringIO("""<body>
... <h1>A title</h1>
... <p>Some text</p>
... </body>"""))
>>> root = t.getroot()
>>> for child in root.iterdescendants(),:
...  print etree.tostring(child)
...
<h1>A title</h1>

<p>Some text</p>

可以简写如下：

print ''.join([etree.tostring(child) for child in root.iterdescendants()])

类似资料：

使用PHP的HTML DOMDocument解析HTML

本文向大家介绍使用PHP的HTML DOMDocument解析HTML，包括了使用PHP的HTML DOMDocument解析HTML的使用技巧和注意事项，需要的朋友参考一下可以通过以下代码获取<div>标记内的<div>标记内的文本，其中<div>内的class =“ main”内- 示例输出结果这将产生以下输出-
使用Jsoup解析HTML时间表

我知道在解析HTML表方面有很多问题。然而，在做了一些研究并研究了Jsoup之后，我有点被它难倒了。我有时间表我想解析以取出标记的文本，但要保持某种格式。我更愿意将数据分割成可管理的块。也许我可以做一个？但是，这意味着没有演讲时间。除非不需要计算空格和计算时间，假设每个空格是15分钟。
使用JAVA解析html

我在使用jsoup（Java）解析html文档时遇到了一个问题。我正在分析的HTML具有以下格式：我想在两个“hr”标记之间隔离HTML文本。我正在尝试以下代码：系统出来println（对象）；但是ArrayList没有包含我想要的内容，我不知道如何解决它。（我是否可以将“hr”标记转换为“hr”文本“/hr”标记）？
使用JSoup解析HTML

我想解析出这个Nasa页面上的描述，页面底部的文字我该怎么做？
Jsoup 使用DOM解析HTML

主要内容：Jsoup 使用DOM解析HTML 语法,Jsoup 使用DOM解析HTML 说明,Jsoup 使用DOM解析HTML 示例以下示例将展示在将 HTML 字符串解析为 Document 对象后如何使用类似 DOM 的方法。 Jsoup 使用DOM解析HTML 语法 document ：文档对象代表 HTML DOM。 Jsoup ：解析给定 HTML 字符串的主类。 html ： HTML 字符串。 sampleDiv ：元素对象表示由 id“sampleDiv”标识的 html
使用时区与Joda解析日期

问题内容：我有两个时间戳，它们以两种不同的格式描述同一时刻。和。我用Joda-Time用两个不同的日期格式解析时间戳。最后，我想有两个DateTime对象，它们在同一时刻相同。 DateFormatter提供了几种控制时区和语言环境的方法，但我无法使其正常工作。这是我想工作的代码：问题答案：如果您的默认时间zome是Europe / Berlin，则2010-10-03 18:58:0

相关阅读

使用JAVA解析网站HTML java.lang.Void类的解析与使用详解 Firefox中的jQuery html（）（使用.innerHTML）忽略DOM更改如何使用jsoup解析HTML表？使用Selenium Python解析HTML并读取HTML表

相关文章

Java CyclicBarrier 循环屏障的解析与应用 Hashtable解析以及与HashMap的区别 ArrayDeque解析以及与LinkedList的区别数据分析面试题与解析1 数据分析面试题与解析2

相关问答

使用J汤解析html和javascript 如何使用JSOUP解析HTML表？在Android中使用Jsoup解析HTML时强制关闭使用JSOUP解析HTML中的ID和名称无法使用Jsoup解析url的完整html

相关工具

解析html网页的数据 ini格式解析天气数据解析简单xml解析demo html

相关文档

Mininet 应用与源码剖析深入解析 Go Tornado 源码解析深度解析 ECMAScript 6 百度分析云使用手册