问题：

如何使用Nutch只抓取和解析精确的数据？

慎芷阳

2023-03-14

例如，我只需要抓取和解析文本内容，其中有地址信息，电子邮件id，电话号码和传真号码。

我该怎么做？是否有任何插件已经可用的这个？
如果我想为此编写一个定制的解析器，有人能在这方面帮助我吗？

共有1个答案

公冶高义

2023-03-14

结帐NUTCH-1870一个正在为Nutch开发的通用XPath插件，另一种方法是编写一个自定义的HtmlParseFilter，它会废弃您想要的数据。一个很好（也很简单）的例子是标题插件。请记住，这两个链接都是针对Nutch的1.x分支的，您使用的是2.x尽管在某种程度上有所不同，但逻辑应该是可移植的，另一种选择是使用1.x分支。

根据你的评论：

由于您不知道网页的结构，问题有些不同：本质上，您需要“教”Nutch如何检测您想要的文本，基于一些regexp或使用一些从纯文本中提取地址的库，比如jgeocoder库，您需要解析（在网页的每个节点上迭代），试图找到类似于地址、电话号码、传真号码等的东西。这与标题插件的功能类似，但它不是寻找地址或电话号码，而是在HTML结构中找到标题节点。这可能是一个起点，以编写一些插件，做你想要的，但我不认为有任何开箱即用。

类似资料：

fiddler - 如何使用Fiddler只抓取HTTP GET请求数据包？

Fiddler可以只抓取get请求方法的数据包吗？如何抓取呢？希望知道的小伙伴回答解答一下，十分感谢！！！
如何使用JSoup（java）正确解析数据

我想从这个HTML中解析数据（CompanyName,Location,jobDescription,...）使用JSoup（java）。我在尝试迭代工作列表时会被卡住从HTML中提取是我想要迭代并从中提取数据的许多“joblisting”div中的一个。我只是无法处理如何迭代特定的div对象。很抱歉这个问题，但也许有人可以帮助我谁已经知道使用哪一个功能。选择？文件输入=新文件（“C:/tal
如何正确使用试抓？

我正在尝试处理如何使用try-catch。我知道它将“尝试”主代码，如果它不工作，它将捕获它并执行不同的操作。我还希望不断提示用户输入正确的值。我一直得到输入不匹配异常错误，即使我设置我的捕获在其块中。澄清一下：当我向用户询问他们计划停留多长时间，以及他们希望呆在哪一层楼的INT时，try-catch就会出现。因此，我想处理的错误包括非整数，以及它们是否超出“hotel”的范围。这是我的密码
antlr4中n个参数的精确解析

我将Antlr4与python3运行时一起使用。在我试图解析的语言中，有许多操作（大约50个）接受固定数量的参数，其形式为我以前有一个语法，规则是这样的：您是否知道我是否可以创建一个规则，该规则也适用于？根据一个经常变化的规则（每隔几个月就会添加或删除一些操作符），拥有这个子库确实有助于清晰
如何用nutch和索引特定标记解析html到Solr？

你知道吗？
如何使用SAX正确解析XML？

问题内容：我正在从REST服务接收XML文档，该文档将使用SAX进行解析。请参见以下示例，它是从XSD生成的。设置解析器不是问题。我的主要问题是在实际的处理，方法等，我不知道如何提取我需要的项目，并将其作为他们有些“嵌套”。例所述可发生一次或两次，并且可以包含任意数量的其-in了转向有关于一个连接的信息的元素。基本上，我需要与他们的所有连接的列表，和。我必须为每个元素创建一个类吗？就我所

如何使用Nutch只抓取和解析精确的数据？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档