当前位置: 首页 > 知识库问答 >
问题:

BeautifulSoup-链接名称

袁桐
2023-03-14

我有这个html页面:

<ul class="quicklinks">
<li class="subnav_item_main">
<a href="action.html">Action
</a> </li>
<li class="subnav_item_main">
<a href="adventure.html">Adventure
</a> </li>..............

我成功地插入了列表中的所有链接:

soup=load_soup_object(html_file_name)
mtag=soup.find("ul", attrs={"class" : "quicklinks"})
link_to_pages=[t['href'] for t in mtag.findAll("a")]

但如何插入类别的名称?像这样:“动作,冒险........”

共有1个答案

太叔俊侠
2023-03-14

您可以使用text属性:

category_names = [tag.text for tag in mtag.find_all('a')]
 类似资料:
  • 问题内容: 在机械化中,我们可以使用follow_link或click_link单击链接。在美丽的汤中是否有类似的事情可以单击网页上的链接? 问题答案: 是HTML 解析器 。 进一步的讨论实际上取决于您所处的具体情况以及特定网页的复杂性。 如果您需要与网页进行交互:提交表单,单击按钮,滚动等-您需要使用利用真实浏览器的工具,例如。 例如,在某些情况下,如果提交表单时不涉及任何javascript

  • 问题内容: 如何检索网页链接并使用Python复制链接的URL地址? 问题答案: 这是在中使用类的一小段代码:

  • 问题内容: 我需要能够修改HTML文档中的每个链接。我知道我需要使用,但是我对实现该方法不是100%肯定的。如果有人可以引导我获得良好的资源或提供代码示例,将不胜感激。 谢谢。 问题答案: 也许这样的事情行得通吗?(不幸的是,我面前没有Python解释器)

  • 问题内容: 在Unix中,可以通过以下方式创建匿名文件的句柄,例如,使用creat()创建和打开该文件,然后使用unlink()删除目录链接- 剩下一个带有inode和存储的文件,但是没有办法重新打开它。这些文件通常用作临时文件(通常这是tmpfile()返回给您的)。 我的问题:有什么办法可以将这样的文件重新附加到目录结构中?如果可以这样做,则意味着您可以例如执行文件写入操作,以使文件看起来原子

  • 我希望将文件名设置为my-download.json。

  • 问题内容: 我正在运行此课程网站的抓取工具,我想知道一旦将它放入beautifulsoup,是否有更快的方法来抓取该页面。它花费的时间比我预期的要长。 提示? 问题答案: 好的,您可以通过以下方法真正加快速度: 再往低级别的-看到正在做什么潜在的请求,并模拟它们 让我们使用解析器 使用解析页面的唯一相关部件 由于这是生成的形式,并且由于它的安全性功能,事情变得更加复杂。这是完整的代码,请不要害怕-