当前位置: 首页 > 面试题库 >

用JavaScript支持进行屏幕抓取的好工具是什么?

戚默
2023-03-14
问题内容

是否有一个好的测试套件或工具集可以自动进行网站导航(带有Javascript支持)并从页面中收集HTML?

当然,我可以使用BeautifulSoup抓取直接的HTML。但这对需要Javascript的网站没有好处。:)


问题答案:

您可以使用Selenium或Watir来驱动真正的浏览器。

还有一些基于JavaScript的无头浏览器:

  • PhantomJS是一款无头Webkit浏览器。
  • pjscrape是基于PhantomJS和jQuery的抓取框架。
  • CasperJS是基于PhantomJS的导航脚本和测试实用程序,如果您需要做的只是指向要抓取的URL。
  • Zombie for Node.js
    我个人最熟悉Selenium,它支持以多种语言编写自动化脚本,并且具有更成熟的工具,例如用于Firefox 的出色的Selenium IDE扩展,可用于编写和运行测试用例,以及可以将测试脚本导出为多种语言。


 类似资料:
  • 问题内容: 我已经仔细阅读了http://developer.android.com/guide/practices/screens_support.html和其他相关网站中的文档,但我仍然对此表示怀疑。让我解释: 我已经为值,values-large和values- xlarge实现了dimens.xml,因此,例如,在平板电脑上运行时,我的Android应用程序很好。但是,我指定了填充,边距,

  • Liferay屏幕可用于iOS和Android,允许使用Liferay门户作为后端开发本机应用程序 - 某种程度上。代号是否支持此功能?

  • 问题内容: 我正在做一个项目,我需要做很多屏幕抓取工作,以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。 顺便说一下,我正在使用Java。 到目前为止,这是我的工作流程: 连接到网站(使用来自Apache的HTTPComponents) 网站包含一个带有一堆我需要访问的链接的部分(使用内置的Java HTML解析器来弄清楚我需要访问的所有链接是什么,这很烦人且凌乱的代码

  • 问题内容: 我想抓取并将某些网页另存为HTML。假设您爬入了数百个受欢迎的网站,只需保存它们的首页和“关于”页面。 我调查了许多问题,但都没有从网络抓取或网络抓取问题中找到答案。 我应该使用什么库或工具来构建解决方案?还是什至有一些现有的工具可以解决这个问题? 问题答案: 这里确实没有很好的解决方案。您猜对了,因为您怀疑Python可能是最好的启动方式,因为它对正则表达式的强大支持。 为了实现这样

  • 在我的例子中,我不需要重写类名并且我发送空值...但我正在等待48小时,我的firebase analytics控制台没有显示关于这个事件的信息,有什么想法吗? 提前道谢!

  • 我正在尝试刮一个网站学习python和网页刮。特别是,我试图在这个页面上收集足球数据:https://www.whoscored.com/regions/108/tournaments/5/seasons/7468/stages/16548/playerstatistics/italy-serie-a-2018-2019 我的主要问题是如何刮除主数据表的所有页面,而不仅仅是第一个。我试图用sele