当前位置: 首页 > 知识库问答 >
问题:

如何使用selenium python获取页面中的所有链接?

朱啸
2023-03-14

我尝试了下面给出的代码,但每次运行代码时,都会有一些链接添加到missing。我想在一个列表中获取页面中的所有链接,这样我就可以使用切片来访问我想要的任何链接。

links = []
eles = driver.find_elements_by_xpath("//*[@href]")

for elem in eles:#
    url = elem.get_attribute('href')
    print(url)
    links.append(url)

有没有办法在不遗漏任何元素的情况下获得所有元素。

共有1个答案

宗政学
2023-03-14

有时链接位于框架内。使用inspect搜索网站中的框架。因此,您需要先切换帧

browser.switch_to.frame("x1")
links = []
eles = driver.find_elements_by_xpath("//*[@href]")

for elem in eles:#
    url = elem.get_attribute('href')
    print(url)
    links.append(url)
browser.switch_to.default_content()
 类似资料:
  • 我正在实现一个网络爬虫,我正在使用Crawler4j库。我不是得到一个网站上的所有链接。我试图使用Crawler4j提取一个页面上的所有链接,但遗漏了一些链接。 这是页面上的URL列表,这是Crawler4J给出的URL列表。 我查看了crawler4j使用的'HTMLContentHandler.java'文件来提取链接。在此,仅提取与“src”和“href”链接相关联的链接。 我发现这些文件的

  • 我正在使用selenium web驱动程序来获取使用以下逻辑存在的所有链接: 但它只返回以http开头的链接,而不返回java脚本中的链接。我如何获得这些链接?

  • 我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接? 编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?

  • 如何使用AEM查询查找内容页中使用的DAM中所有图像的列表。 我们在DAM中有很多图片,但并不是所有的都在页面上使用。我尝试了一些基本的(Xpath、SQL2),但没有成功。任何帮助都会很好。 提前谢谢你,贝因霍夫

  • 我试图在谷歌中键入,并在记事本文件中获取结果的所有标题文本。我想得到所有页面上的所有可用链接,直到搜索的最后一页。但只有第一页的链接,我得到。当我调试并运行时,它可以工作大约10页。帮我做这件事。 JAVA代码:

  • 我试图获取所有网页中的所有链接,但当我使用“列表”时