当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Web-Harvest

Web 数据提取工具

授权协议 BSD

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者欧盛

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Web-Harvest 是用 Java 编写的开源 Web 数据提取工具。它提供了一种收集所需网页并从中提取有用数据的方法。为了做到这一点，它利用了成熟的文本/xml操作技术，如XSLT、XQuery和正则表达式。Web-Harvest主要专注于基于HTML/XML的网站，这些网站仍然占网络内容的绝大部分。另一方面，它可以很容易地通过定制的Java库来补充，以增强其提取能力。

使用案例

Web-Harvest的简要介绍

一、简述 Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的，你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面，它也能通过写自己的Java 方法来轻易扩展其提取能力。 Web-Har
Web-Harvest学习笔记

文章来源[url]http://mxsfengg.blog.163.com/blog/static/2637021820085522154653/[/url] 这一章，我们来学习scraper的源码。首先，我们来看下scrape的构造函数， public Scraper(ScraperConfiguration configuration, String workingDir) { this.c
Web-Harvest(1)

www.vdisk.cn ( for example http://www.vdisk.cn/msdiaoxian) has the following xpath ======link of ALLFILES <div class='tag'><a href='?tag=ALLFILES&p=1' title='ALLFILES(339)'>ALLFILES(339)</a></div> "//
用 web-harvest 挖掘需要的数据

首先,在官方网站下载 web-harvest,目前最新版本是1.0，下载页面分三个下载包，分别是 webharvest1-exe.zip， webharvest1-bin.zip， webharvest1-project.zip，他们没实质区别，第一个是包含了全部第三方包（一起打入了同一个jar文件直接可运行），第二个做为一个中间件出现，附带了所有独立的第三方jar包，第三个则是源码，当然要最大
Web harvesting

It's hard to argue with the proposition that the World Wide Web is the largest repository of information that has ever existed. In just over a decade, the Web has moved from a university curiosity to
Web-Harvet(2)

Analysis csdn ====== search criteria <div class="interact"> <a href="http://my.csdn.net/my/letter/send/cping1982" class="letter" title="[发私信]"></a> <!--<a href="#" class="attented" title="已关注"></a>-
web-harvest基础学习一

Web-harvest里面的<script>标签，其自带的例子： <var-def name="birthday">2/10/2008</var-def> <var-def name="web_harvest_day_variable"> <script return="nameDay.toUpperCase()"><![CDATA[ tokenizer = new
Web-Harvest

Web-Harvest（网络爬虫）一个很不错的开源工具，用来抓取网络数据。有空时再写下使用心得（^_^）官网： http://web-harvest.sourceforge.net/
web-harvest的应用

一、背景在当前信息空前爆炸的时代，人们不再担心信息的匮乏，而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢？现在有RSS、博客等服务，但是并不能完全满足我们的需求，因为很多信息并不是以格式化的数据形式提供出来，于是聪明的工程师想出了精确搜索的方法，从而出现大量的垂直搜索网站（比如酷讯），确实火了一把。当然我们无法得知他们是怎么实现的，但是我们也可以实现这种精确采集，开源的Web-
[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析

Web-Harvest中负责数据抓取的java代码，还是非常简单的，只有简单的几行代码，实际上整个抓取的复杂过程都被已经Web-Harvest封装起来，这极大地方便了开发人员运用Web-Harvest进行数据采集。 /*获取配置文件*/ ScraperConfiguration config = new ScraperConfiguration("./360buy/category/360bu
[Web-Harvest数据采集之一]WebHarvest基础-配置文件分析

Web-Harvest 是一个用Java 写的开源的Web 数据抓取工具。在使用Web-Harvest 中可能需要用到如XPath,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面，它也能通过写自己的Java 方法来轻易扩展其提取能力。 Web-Harvest 官方网站（http://web
WebHarvest

WebHarvest 理念万维网，尽管是目前最大的知识基地，但仍然难以将它视为传统意义上的数据库，从而作为深入计算的所使用的信息源。WebHarves满足实用性的需求在正确的时间获取正确的数据。基本概念 Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些
Web Farm

Web farm (1) A group of computer systems and Web server software that collectively provide the Web page delivery mechanism in a company either for internal use (intranet) and/or for the public Int
WebHarvest 常见问题

由于对xquery的语法不熟悉，导致debug折腾了两个晚上。遇到的问题基本可归纳成以下几点： 1. 中文字符编码问题在抓取中文网页时，以下几个地方需要指定charset属性，否则会出现奇怪的错误 <?xml version="1.0" encoding="gb2312"?> <file action="write" path="../data/plots.xml" charset="gb2
爬虫学习-Web-Harvest

Web-Harvest java编写 GUI图形操作界面（直接双击jar包即可）通过编写xml文件解析并获取网页资源，简单优雅下载链接： http://web-harvest.sourceforge.net/download.php Demo: <?xml version="1.0" encoding="UTF-8"?> <config charset="UTF-8"> <var-def
试用Web-HarvestJava开源Web数据抽取...

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。个人感觉，这个工具的设计构想很好，利用写好的xml脚本把指定的html转化成xml，然后再利用xml 解析器从中抽取信息。这样在编写网页信息抽取工具时，我们就不用担心网
Web：Spring Web

Getting Started Reference Documentation For further reference, please consider the following sections: Official Apache Maven documentation Spring Boot Maven Plugin Reference Guide Create an OCI image

Web-Harvest

同类工具

相关阅读

相关文章

相关问答

相关文档