浏览器和抓取-解决方案

呼延衡

2023-03-14

问题内容：

我正在尝试列出适用于浏览器自动测试套装和能够抓取的无头浏览器平台的可能解决方案。

浏览器测试/报废：

Selenium - 通晓多国语言的浏览器自动化的旗舰，为Python和Ruby，JavaScript中，C＃，Haskell和更多，IDE的Firefox（作为扩展），更快的测试部署绑定。可以充当服务器并具有大量功能。
JAVASCRIPT
PhantomJS - JavaScript使用Webkit进行无头测试，包括屏幕捕获和自动化。从1.8版开始，Selenium的WebDriver API已实现，因此你可以使用任何WebDriver绑定，并且测试将与Selenium兼容
SlimerJS-与PhantomJS相似，使用Gecko（Firefox）代替WebKit
CasperJS - JavaScript的，建立在两个PhantomJS和SlimerJS，具有额外的功能
Ghost Driver - 的JavaScript执行的webdriver的Wire协议的PhantomJS。
new PhantomCSS -CSS回归测试。一个CasperJS模块，用于使用PhantomJS和 Resemble.js自动化视觉回归测试。
new WebdriverCSS -插件为 Webdriver.io自动化视觉回归测试
new PhantomFlow-描述和可视化通过测试的用户流程。Web用户界面测试的实验方法。
new trifleJS-移植 PhantomJS API以使用Internet Explorer引擎。
new CasperJS IDE （commercial）

NODE.JS

网页抓取/挖掘

Scrapy - Python，主要是一个scraper / miner-快速，完善的文档，可以与Django Dynamic Scraper链接以进行良好的挖掘部署，也可以与Scrapy Cloud进行PaaS（无服务器）部署相结合，可在终端或服务器独立程序中运行，可与Twisted顶部的Celery一起使用
Snailer - node.js模块，未经测试。
Node-Crawler - node.js模块，尚未测试。
在线工具
new Web爬网语言 -用于爬网的简单语法
new 在线HTTP客户端 -专用SO答案
dead CasperBox-在线运行 CasperJS脚本