当前位置: 首页 > 知识库问答 >
问题:

如何使用Crawler4J提取页面上的所有链接?

邵沛
2023-03-14

我正在实现一个网络爬虫,我正在使用Crawler4j库。我不是得到一个网站上的所有链接。我试图使用Crawler4j提取一个页面上的所有链接,但遗漏了一些链接。

这是页面上的URL列表,这是Crawler4J给出的URL列表。

我查看了crawler4j使用的'HTMLContentHandler.java'文件来提取链接。在此,仅提取与“src”和“href”链接相关联的链接。

我发现这些文件的区别。Crawler4j缺少与“src”或“href”属性无关的、位于“script”标记下的链接。这是crawler4j没有抓取的链接列表。

共有1个答案

段干宜
2023-03-14

尝试使用正则表达式定位链接。

你可以在这里找一个例子。

 类似资料:
  • 我尝试了下面给出的代码,但每次运行代码时,都会有一些链接添加到missing。我想在一个列表中获取页面中的所有链接,这样我就可以使用切片来访问我想要的任何链接。 有没有办法在不遗漏任何元素的情况下获得所有元素。

  • 我正在使用https://api.github.com/orgs/ORG/teams/TEAM/repos.按团队访问回购数据但是,该团队有超过30个回购,而API只提取前30个回购。如何解决此问题并让我的应用程序提取所有回购,即使它们在下一页上?

  • 我的代码不会获取这样的链接。使用doc.select也没有帮助。我的问题是,如何从页面中获得所有链接? 编辑:我想我知道问题出在哪里了。我遇到麻烦的页面写得很糟糕,HTML验证器抛出了大量的错误。这会引起问题吗?

  • 我正在使用selenium web驱动程序来获取使用以下逻辑存在的所有链接: 但它只返回以http开头的链接,而不返回java脚本中的链接。我如何获得这些链接?

  • 本文向大家介绍php获取网页上所有链接的方法,包括了php获取网页上所有链接的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了php取得网页上所有链接的方法。分享给大家供大家参考。具体实现方法如下: 希望本文所述对大家的php程序设计有所帮助。

  • 问题内容: 对于我的网站,我想添加一个新功能。 我希望用户能够上传他的书签备份文件(如果可能的话,可以从任何浏览器上传),这样我就可以将其上传到他们的个人资料,而他们不必手动插入所有文件… 我唯一缺少的是从上传文件中提取标题和URL的部分。任何人都可以提供从哪里开始或在哪里阅读的线索? 使用的搜索选项和如何从原始HTML文件提取数据?这是与我最相关的问题,因此不再赘述。 我真的不介意它是否使用jq