当前位置: 首页 > 知识库问答 >
问题:

在Python中鲁棒地解析超文本标记语言[重复]

翁宜年
2023-03-14

请原谅我,这个问题已经被问了十亿次了——用Python解析超文本标记语言有哪些可用的选项,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?

共有1个答案

丌官和泰
2023-03-14

根据我的经验,在许多python xml/html库中,美丽的汤非常擅长处理损坏的超文本标记语言。

原始:

<i>This <span title="a">is<br> some <html>invalid</htl %> HTML. 
<sarcasm>It's so great!</sarcasm>

用美汤解析:

 <i>This 
  <span title="a">is
   <br /> some 
   <html>invalid HTML. 
    <sarcasm>It's so great!
    </sarcasm>
   </html>
  </span>
 </i>
 类似资料:
  • 对于上面的html内容,我如何使用Jsoup解析并获取文本 当我使用 我得到了这样的东西

  • 我有这个 我想从每个具有类“postrow”的div中提取以下内容,并且可能还有其他类,比如<code> < li >带有类标题的标记内的内容 < li >来自“blockquote”标记的HTML。但不包括该标签内的任何div。 我尝试的代码:

  • 我是新来的。我想解析html,但问题是我们必须在中指定的URL,我将在运行时从其他页面响应此URL。有没有办法将收到的网址传递到中?我读过这样的东西: 但是我不知道如何使用它。我很想知道是否有其他方法比jsoup更好。

  • 我正在工作的工具提示和从后端我将获得数据与html标记。我需要在工具提示中显示相应的标签中的相应数据。例如,我将从后端获得Hello用户单击此处。我必须显示为你好用户在h1格式,点击这里应该是一个锚。我尝试了这两个功能,并取代其不工作。 具有以下功能: 替换: https://codesandbox.io/s/serene-fast-u8fie?file=/App.svelte

  • 我试图在HTML的pre标签中包装文本,但它不起作用。我使用下面的CSS作为我的标签。 我从如何在pre标记中换行文本? 我已添加

  • 我想在单击输入字段时触发一个处理程序,在取消选择输入字段时触发另一个处理程序(即,如果有人在字段外单击)。有没有办法做到这一点? 单击处理程序非常简单: 是否可以创建“取消单击”处理程序?