当前位置: 首页 > 面试题库 >

BeautifulSoup-修改一段HTML中的所有链接?

令狐声
2023-03-14
问题内容

我需要能够修改HTML文档中的每个链接。我知道我需要使用,SoupStrainer但是我对实现该方法不是100%肯定的。如果有人可以引导我获得良好的资源或提供代码示例,将不胜感激。

谢谢。


问题答案:

也许这样的事情行得通吗?(不幸的是,我面前没有Python解释器)

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<p>Blah blah blah <a href="http://google.com">Google</a></p>')
for a in soup.findAll('a'):
  a['href'] = a['href'].replace("google", "mysite")

result = str(soup)


 类似资料:
  • 问题内容: 我有下面的脚本,该脚本可以修改HTML文件中的属性(将来,它将是目录中HTML文件的列表)。使用BeautifulSoup,我设法访问了标签值并根据需要对其进行了修改,但是我不知道如何保存对文件所做的更改。 问题答案: 现在将显示更改的链接。要将更改保存到文件: 要保留文档的原始字符编码,可以使用“ utf-8”代替。请参阅编码。

  • 问题内容: 我正在尝试从网站上抓取表格数据。 这是一个简单的示例表: 所需的解析结果是 到目前为止,这是我最接近的尝试: 结果是: 我知道的参数,但是使用它时没有得到预期的结果。 我正在使用python 2.6和BeautifulSoup3。 问题答案: 尝试这个:

  • 打开conf/mvc/nutzbook-mvc-chain.js, 在ModuleProcessor后面加入一行 "org.nutz.integration.shiro.NutShiroProcessor", 最终效果 var chain={ "default" : { "ps" : [ "net.wendal.nu

  • 我有这个html页面: 我成功地插入了列表中的所有链接: 但如何插入类别的名称?像这样:“动作,冒险........”

  • 问题内容: 这是我的脚本: 运行时,将打印: 我希望它保持相同的结构。我怎样才能做到这一点? 问题答案: 从Beautiful Soup文档中: 最常见的缺点BeautifulStoneSoup是它不了解自闭合标签。HTML具有一组固定的自闭标签,但对于XML,则取决于DTD所说的内容。您可以BeautifulStoneSoup通过将某些标签作为selfClosingTags构造函数的参数传递来告

  • 本文向大家介绍如何更改HTML中的链接目标?,包括了如何更改HTML中的链接目标?的使用技巧和注意事项,需要的朋友参考一下 要更改HTML中链接的目标,请使用<a>…</a>标记的target属性。target属性可用于打开新选项卡或相同选项卡等中的任何链接。 以下是target属性的值: 属性 描述 _空白 在新选项卡中打开链接的页面。 自 在当前选项卡中打开链接的页面。 父母 在父框架中打开链