当前位置: 首页 > 面试题库 >

使用python和BeautifulSoup从网页检索链接

夏志国
2023-03-14
问题内容

如何检索网页链接并使用Python复制链接的URL地址?


问题答案:

这是在BeautifulSoup中使用SoupStrainer类的一小段代码:

import httplib2
from BeautifulSoup import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])


 类似资料:
  • 我是网页刮刮的新手。我正在使用美丽的汤提取谷歌播放商店。但是,我坚持从div标记中检索文本。Div标记如下所示: 我想检索从“谢谢你的反馈”开始的文本。我使用以下代码检索文本: 但是,上面的命令也返回不需要的文本,即'education.com'和日期。我不确定如何从没有类名的div标记中检索文本,如上面的示例所示。等待你的指引。

  • 问题内容: 如何使用Python检索网页的页面标题(标题html标签)? 问题答案: 我将始终将lxml用于此类任务。您也可以使用beautifulsoup。 根据评论进行编辑:

  • 本文向大家介绍python使用BeautifulSoup分析网页信息的方法,包括了python使用BeautifulSoup分析网页信息的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下: 这段python代码查找网页上的所有链接,分析所有的span标签,并查找class包含titletext的

  • 问题内容: 在机械化中,我们可以使用follow_link或click_link单击链接。在美丽的汤中是否有类似的事情可以单击网页上的链接? 问题答案: 是HTML 解析器 。 进一步的讨论实际上取决于您所处的具体情况以及特定网页的复杂性。 如果您需要与网页进行交互:提交表单,单击按钮,滚动等-您需要使用利用真实浏览器的工具,例如。 例如,在某些情况下,如果提交表单时不涉及任何javascript

  • 我们的Spotify链接如下所示: 我们刚刚注意到所有这些链接似乎都被破坏了--Spotify只是返回一个网页,上面写着“对不起,找不到那个”。我很难在网上找到任何有关这方面的信息。有没有人知道Spotify最近是否改变了他们的API,我们可以做什么来修复这些URL?

  • 问题内容: 我有以下代码,用于使用JSoup在Java中解析HTML。 问题是我只能检索首页搜索结果链接。我应该怎么做才能从Google搜索结果的其余页面获得链接。 问题答案: 如果要从第二页获得结果,请添加到URL。对于第三页使用,依此类推。