当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

PlayFish

网页抓取工具

授权协议 MIT

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者边桐

操作系统跨平台

开源组织无

适用人群未知

软件概览

playfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具

应用开源jar包包括httpclient(内容读取),dom4j（配置文件解析）,jericho（html解析），已经在 war包的lib下。

这个项目目前还很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正则表达式。目前通过这个工具可以抓取各类论坛，贴吧，以及各类CMS系统。像Discuz!,phpbb,论坛跟博客的文章，通过本工具都可以轻松抓取。抓取定义完全采用XML，适合Java开发人员使用。

使用方法， 1.下载右边的.war包导入到eclipse中， 2.使用WebContent/sql下的wcc.sql文件建立一个范例数据库， 3.修改src包下wcc.core的dbConfig.txt，将用户名与密码设置成你自己的mysql用户名密码。 4.然后运行SystemCore,运行时候会在控制台，无参数会执行默认的example.xml的配置文件，带参数时候名称为配置文件名。

系统自带了3个例子，分别为baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一个采用 discuz论坛的内容。

使用案例

网页数据动态抓去工具之playfish

playfish是一个采用java技术，综合应用多个开源java组件实现的网页抓取工具，通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具应用开源jar包包括httpclient(内容读取), dom4j （配置文件解析）, jericho （html解析），已经在 war包的lib下。这个项目目前还很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正则表达式。目前通过这个工具

相关资料

Python-网页抓取

我是python新手，正在尝试从以下站点获取数据。虽然这段代码适用于不同的站点，但我无法让它适用于nextgen stats。有人想知道为什么吗？下面是我的代码和我得到的错误下面是我得到的错误 df11=pd。读取html（urlwk1）回溯（上次调用）：文件“”，第1行，在文件“C:\Users\USERX\AppData\Local\Packages\PythonSoftwareFounda
Python网页抓取/数据提取

在我的硕士论文中，我正在探索通过web自动化从网站中提取数据的可能性。步骤如下：登录网站（https://www.metal.com/Copper/201102250376）输入用户名和密码单击登录将日期更改为2020年1月1日刮取生成的表格数据，然后将其保存到csv文件中用我电脑上的特定名称保存到特定文件夹运行相同的序列，在同一浏览器窗口的新选项卡中下载其他材料的其他历史价格数据
[实例]爬虫抓取网页

主要内容：导入所需模块,拼接URL地址,向URL发送请求,保存为本地文件,函数式编程修改程序本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。导入所需模块本节内容使用 urllib 库来编写爬虫，下面导入程序所用模块：拼接URL地址定义 URL 变量，拼接 url 地址。代码如下所示：
Python-使用Python网页抓取JavaScript页面

问题内容：我正在尝试开发一个简单的网页抓取工具。我想提取没有代码的文本。我实现了这个目标，但是我发现在某些加载了的页面中，我没有获得良好的结果。例如，如果一些代码添加了一些文本，则看不到它，因为当我调用我得到的原始文本没有添加文本（因为在客户端执行了）。因此，我正在寻找一些解决此问题的想法。问题答案：一旦安装了，请确保二进制文件在当前路径中可用：例举个例子，我用以下HTML代码创建
使用Python进行网页抓取

问题内容：我想从网站上获取每天的日出/日落时间。是否可以使用Python抓取网络内容？使用什么模块？有没有可用的教程？问题答案：结合使用urllib2和出色的BeautifulSoup库：
Selenium与BeautifulSoup进行网页抓取

问题内容：我正在使用Python从网站上抓取内容。首先，我用和Python的，但我看到，该网站有一个按钮，通过JavaScript创建的内容，所以我决定使用。假设我可以使用Selenium等方法找到元素并获取其内容，那么当我可以对所有内容都使用Selenium时，有什么理由要使用？在这种特殊情况下，我需要使用Selenium来单击JavaScript按钮，以便更好地使用Selenium进行解
ESPN. com Python网页抓取问题

我试图为所有大学足球队的名单收集数据，因为我想根据他们的名单组成对球队表现进行一些分析。我的脚本在第一页上工作，它迭代每个团队，并可以打开每个团队的名册链接，但是然后我在名册页面上为一个团队运行的美丽汤命令继续抛出索引错误。当我查看超文本标记语言时，似乎我正在编写的命令应该工作，但当我从美丽的汤中打印页面源时，我在Chrome的开发人员工具中看不到什么。这是JS被用来提供内容的一些实例吗？如果是
使用Python抓取多个网页

我想刮从多个网站与类似的网址的，如https://woollahra.ljhooker.com.au/our-team, https://chinatown.ljhooker.com.au/our-team和https://bondibeach.ljhooker.com.au/our-team. 我已经写了一个脚本，第一个网站的工作，但我不知道如何告诉它从其他两个网站刮。我的代码：有没有一种方

同类工具

Portia baidupost Scrapple PlayFish SpiderGirls PHPCrawl spider-flow larbin

相关阅读

抓取 JavaScript生成的网页数据通过网页抓取提取JavaScript变量值 javascript使用C＃生成的抓取网页使用python和selenium抓取动态网页如何通过Python抓取动态网页

相关文章

[实例]抓取动态加载数据 [实例]抓取百度贴吧数据 [实例]抓取链家二手房数据 [实例]抓取猫眼电影排行榜 Selenium WebDriver滚动网页

相关问答

学校项目中的网页抓取 Python网页抓取（Beautiful Soup、Selenium和PhantomJS）：只抓取整个页面的一部分用Python抓取网页：非类型错误，不能抓取表的数据 PHP-使用preg_match从网页中抓取DIV元素如何让Python抓取JavaScript文件生成的网页

相关文档

网页安全配色手册 MIP 移动网页加速器开发文档人工智能会取代人类吗？互联网 Java 工程师进阶知识完全扫盲 SDN 网络指南