RuiJi Scraper

可视化浏览器爬虫扩展
授权协议 GPLv3
开发语言 TypeScript
所属分类 插件和扩展、 Chrome插件/扩展
软件类型 开源软件
地区 国产
投 递 者 琴刚豪
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

RuiJi.Scraper是一款可视化浏览器爬虫扩展,所见即所得,在编辑抽取规则的同时,就可以观察到抽取的最终结果。扩展规则编译器功能强大,简单易懂。如果您愿意,您可以将规则共享给其他使用者。同时我们准备了文本和视频的教程,帮助您快速掌握扩展的使用方法。

支持目前大部分主流浏览器。 例如以谷歌为内核开发的谷歌浏览器、腾讯浏览器、猎豹浏览器、百度浏览器、360极速浏览器,以及火狐浏览器、微软最新的Edge浏览器。

Public rules

公共规则是所有人都可以使用的规则,由官方或其他用户以共享方式提供。

Web page visual recognition

基于视觉识别,这是一个实验特性,通过它,您可以直接从结构良好的页面中提取数据,而无需定义规则。

Regular collection

您可以在此处存储感兴趣的规则,而无需将副本复制到私有规则库。

Private rules

这是您自己制定或从公共库复制的规则的副本,您当然可以编辑复制的副本。如果你愿意,您可以和别人分享你的规则,在日后还可以收起一定的报酬。

Rule editing

我们提供了许多页面提取可视化功能,通过使用这些功能,您可以轻松快速地创建页面提取规则。这些功能包括提取元素、定位、查看、清洗数据结果。

Data processing function

通过函数,可以将提取的结果转换为目标的数据格式

Multi page extraction

通过多页提取,可以减少大量的重复工作。

Workbook

在这里,您可以查看以前的提取结果以及导出、下载等。

教程

http://www.scraper.top/course/

chrome web store 地址

https://chrome.google.com/webstore/detail/ruiji-scraper/klhahkhllngppofpkjdlbmnglnmnbbol

  • WebScraper 仅供学习交流 关于 WebScraper 官网 : https://www.webscraper.io/web-scraper-first-time-install 一、下载安装 方式一:google 应用商店

 相关资料
  • 本文向大家介绍Python反爬虫伪装浏览器进行爬虫,包括了Python反爬虫伪装浏览器进行爬虫的使用技巧和注意事项,需要的朋友参考一下 对于爬虫中部分网站设置了请求次数过多后会封杀ip,现在模拟浏览器进行爬虫,也就是说让服务器认识到访问他的是真正的浏览器而不是机器操作 简单的直接添加请求头,将浏览器的信息在请求数据时传入: 打开浏览器--打开开发者模式--请求任意网站 如下图:找到请求的的名字,打

  • 本文向大家介绍Python爬虫使用浏览器cookies:browsercookie过程解析,包括了Python爬虫使用浏览器cookies:browsercookie过程解析的使用技巧和注意事项,需要的朋友参考一下 很多用Python的人可能都写过网络爬虫,自动化获取网络数据确实是一件令人愉悦的事情,而Python很好的帮助我们达到这种愉悦。然而,爬虫经常要碰到各种登录、验证的阻挠,让人灰心丧气(

  • 本文向大家介绍Python爬虫爬取博客实现可视化过程解析,包括了Python爬虫爬取博客实现可视化过程解析的使用技巧和注意事项,需要的朋友参考一下 源码: 爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点 这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客 pyecharts安装: pip install wheelpip install pyecharts==0.

  • 每个桌面浏览器都有一套开发工具,开箱即用,您可以将他们添加到您的浏览器的扩展或插件。 以下是两个具有一些实用功能的Chrome扩展程序,可帮助您调试设计。 Emmet Re:View Emmet Re:View是一个工具,它可以让你轻松查看您的网站在每个媒体查询(media queries)中的样子,并同步所有页面的滚动。 你可以在他们的网站上看到它的演示。 Download on the Chr

  • 问题内容: 我是浏览器扩展开发的新手,我了解浏览器扩展更改页面并向其中注入代码的概念。 有没有办法可以扭转这个方向?我编写了一个扩展程序,提供了一组API,想要使用该扩展程序的网站可以检测到该扩展程序的存在,如果存在,该网站可以调用诸如这样的API方法。在Chrome,Firefox和Safari中可能吗? 例: Google创建了一个名为BeautifierExtension的新扩展。它具有一组

  • 本文向大家介绍python爬虫模拟浏览器的两种方法实例分析,包括了python爬虫模拟浏览器的两种方法实例分析的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考,具体如下: 爬虫爬取网站出现403,因为站点做了防爬虫的设置 一、Herders 属性 爬取CSDN博客 爬取结果 urllib.error.HTTPError: HTTP

  • 我正试图用C语言中的openCV捕捉我的内置摄像头,做一些处理。到目前为止,这项工作仍在进行中。 现在我想将网络摄像头传输到浏览器。我该怎么做? 我应该创建WebSocket吗?还是使用UPD Socket? Poco::网::WebSocket 非常感谢。

  • 有的时候,当我们的爬虫程序完成了,并且在本地测试也没有问题,爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候,我们很有可能是遇到了网站的反爬虫拦截。 我们知道,网站一方面想要爬虫爬取网站,比如让搜索引擎爬虫去爬取网站的内容,来增加网站的搜索排名。另一方面,由于网站的服务器资源有限,过多的非真实的用户对网站的大量访问,会增加运营成本和服务器负担。 因此,有些网站会设置一些反爬虫的措施。我