当前位置: 首页 > 工具软件 > Web-Harvest > 使用案例 >

Web-Harvest的简要介绍

钱欣悦
2023-12-01

一、简述

Web-Harvest 是一个用Java 写的开源的Web 数据提取工具它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。

Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用,Web-Harvest 还提供了变量上下方用于存储已经声明的变量。

Web-Harvest的提取过程是用户通过基础XML配置文件的方式来定义的。

一、配置语言

每个提取过程都被定义在一个或者多个基于XML的配置文件中,而且被描述为特定的XML元素。

二、数据类型

Web-Harvest有三种数据类型:textlistbinary。在大多数情况下Web-Harvest会自动决定利用哪种数据类型。

三、处理器(xml标签元素)

config:配置文件的根元素

empty:包装执行序列并返回空值。被用在不在乎执行结果的情况下。

text:将嵌在该元素标签里的值转化成字符串。

var-def:定义或覆盖相同名字的变量

var:返回name属性里指定的变量的值,如果该变量还没有定义则会抛出异常。

file:actio属性可以指定其读写属性,path指定读写文件的路径。

http:发送http请求到指定的URL,并获取返回结果。

html-to-xml:清除body里面的内容并把它转换成有效地XML

xpath:xpath语言表达式去XML文档中匹配查找。

script:执行用指定脚本编写的代码。

template:用指定的脚本语言定义的变量来重新赋值给用${}包含着的部分,如果没有在这里指定使用的脚本语言则会使用config里面设置的脚本语言.

loop:通过迭代list里面的每一项然后传到body里面执行,返回结果是body执行后得到的一个列表。

while:当条件为真时进入循环

function:声明一个用户自定义的函数

return:返回用户定义的值

call:调用用户定义的函数


 类似资料: