我正在使用selenium web驱动程序来获取使用以下逻辑存在的所有链接:
public static List findAllLinks(WebDriver driver)
{
List elementList = new ArrayList();
elementList = driver.findElements(By.tagName("a"));
elementList.addAll(driver.findElements(By.tagName("img")));
List finalList = new ArrayList(); ;
for (WebElement element : elementList)
{
if(element.getAttribute("href") != null)
{
finalList.add(element);
}
}
return finalList;
}
但它只返回以http开头的链接,而不返回java脚本中的链接。我如何获得这些链接?
您可以使用getElementsByTagName。
var links = document.getElementsByTagName('a');
for(var i = 0; i< links.length; i++){
alert(links[i].href);
}
另一种方法是文件。链接,以获得锚定循环它,并获得href!
var linkArray = [], links = document.links;
for(var i=0; i<links.length; i++) {
linkArray.push(links[i].href);
alert(links[i].href);
}
现在您拥有了页面中锚定的所有href属性的数组!
希望有帮助!:)
我尝试了下面给出的代码,但每次运行代码时,都会有一些链接添加到missing。我想在一个列表中获取页面中的所有链接,这样我就可以使用切片来访问我想要的任何链接。 有没有办法在不遗漏任何元素的情况下获得所有元素。
本文向大家介绍php获取网页上所有链接的方法,包括了php获取网页上所有链接的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php取得网页上所有链接的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的php程序设计有所帮助。
我正在实现一个网络爬虫,我正在使用Crawler4j库。我不是得到一个网站上的所有链接。我试图使用Crawler4j提取一个页面上的所有链接,但遗漏了一些链接。 这是页面上的URL列表,这是Crawler4J给出的URL列表。 我查看了crawler4j使用的'HTMLContentHandler.java'文件来提取链接。在此,仅提取与“src”和“href”链接相关联的链接。 我发现这些文件的
输入某个网址url,可以提取对应网页的所有图片,并以缩略图展示出来,点击缩略图可查看原图。 [Code4App.com]
问题内容: 我整天一直在搜寻,找不到答案,因此如果已经回答了,请提前道歉。 我正在尝试从大量不同的网站中获取所有可见的文本。原因是我要处理文本以最终对网站进行分类。 经过几天的研究,我认为硒是我最好的机会。我发现一种使用Selenium来捕获所有文本的方法,不幸的是同一文本被多次捕获: 该内部条件环路消除同一文本多次读取的问题的尝试-但是,它没有,只是作为计划在某些网页的工作。(这也使脚本慢很多)
本文向大家介绍python获取指定网页上所有超链接的方法,包括了python获取指定网页上所有超链接的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python获取指定网页上所有超链接的方法。分享给大家供大家参考。具体如下: 这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址 希望本文所述对大家的python程序设计有所帮助。