当前位置: 首页 > 知识库问答 >
问题:

如何使用Nutch只抓取和解析精确的数据?

慎芷阳
2023-03-14

例如,我只需要抓取和解析文本内容,其中有地址信息,电子邮件id,电话号码和传真号码。

  1. 我该怎么做?是否有任何插件已经可用的这个?
  2. 如果我想为此编写一个定制的解析器,有人能在这方面帮助我吗?

共有1个答案

公冶高义
2023-03-14

结帐NUTCH-1870一个正在为Nutch开发的通用XPath插件,另一种方法是编写一个自定义的HtmlParseFilter,它会废弃您想要的数据。一个很好(也很简单)的例子是标题插件。请记住,这两个链接都是针对Nutch的1.x分支的,您使用的是2.x尽管在某种程度上有所不同,但逻辑应该是可移植的,另一种选择是使用1.x分支。

根据你的评论:

由于您不知道网页的结构,问题有些不同:本质上,您需要“教”Nutch如何检测您想要的文本,基于一些regexp或使用一些从纯文本中提取地址的库,比如jgeocoder库,您需要解析(在网页的每个节点上迭代),试图找到类似于地址、电话号码、传真号码等的东西。这与标题插件的功能类似,但它不是寻找地址或电话号码,而是在HTML结构中找到标题节点。这可能是一个起点,以编写一些插件,做你想要的,但我不认为有任何开箱即用。

 类似资料:
  • Fiddler可以只抓取get请求方法的数据包吗?如何抓取呢? 希望知道的小伙伴回答解答一下,十分感谢!!!

  • 我想从这个HTML中解析数据(CompanyName,Location,jobDescription,...)使用JSoup(java)。我在尝试迭代工作列表时会被卡住 从HTML中提取是我想要迭代并从中提取数据的许多“joblisting”div中的一个。我只是无法处理如何迭代特定的div对象。很抱歉这个问题,但也许有人可以帮助我谁已经知道使用哪一个功能。选择? 文件输入=新文件(“C:/tal

  • 我正在尝试处理如何使用try-catch。我知道它将“尝试”主代码,如果它不工作,它将捕获它并执行不同的操作。我还希望不断提示用户输入正确的值。 我一直得到输入不匹配异常错误,即使我设置我的捕获在其块中。 澄清一下:当我向用户询问他们计划停留多长时间,以及他们希望呆在哪一层楼的INT时,try-catch就会出现。因此,我想处理的错误包括非整数,以及它们是否超出“hotel”的范围。 这是我的密码

  • 我将Antlr4与python3运行时一起使用。在我试图解析的语言中,有许多操作(大约50个)接受固定数量的参数,其形式为 我以前有一个语法,规则是这样的: 您是否知道我是否可以创建一个规则,该规则也适用于?根据一个经常变化的规则(每隔几个月就会添加或删除一些操作符),拥有这个子库确实有助于清晰

  • 问题内容: 我正在从REST服务接收XML文档,该文档将使用SAX进行解析。请参见以下示例,它是从XSD生成的。 设置解析器不是问题。我的主要问题是在实际的处理,方法等,我不知道如何提取我需要的项目,并将其作为他们有些“嵌套”。 例 所述可发生一次或两次,并且可以包含任意数量的其-in了转向有关于一个连接的信息的元素。基本上,我需要与他们的所有连接的列表,和。我必须为每个元素创建一个类吗? 就我所