当前位置: 首页 > 知识库问答 >
问题:

Nutch Crawl-删除每个爬行影响的段

马淇
2023-03-14

我注意到在每次Nutch抓取过程中,发送到Solr的索引不一致。有时会显示网页的最新更改,有时会显示较旧的更改。

原因

注意到Nutch将旧段的索引提供给Solr。

当前解决方案

在获取之前删除所有旧段,似乎解决了问题。

问题

想知道这种方法是否有任何含义,或者我对此的理解是不正确的。还想知道为什么Nutch在爬行过程中不会自动删除旧段。

谢谢。

共有1个答案

黎腾
2023-03-14

如果(再次)对多个段进行索引,并且相同的内容包含在两个或多个段中,则不能保证对最新版本进行索引。这是一个已知的问题(NUTCH-1416)。最简单的解决方案是只将最近获取的数据段发送给索引器。脚本< code>bin/crawl执行此操作,索引步骤在每个周期结束时为该周期中获取的数据段执行。

 类似资料:
  • 我有一个UIView,它通过几个约束被放置在屏幕上。一些约束由superview拥有,另一些约束由其他祖先拥有(例如,可能是UIViewController的view属性)。 要澄清这些解决方案的问题,请考虑以下视图层次结构: 爷爷 父亲 我 儿子 女儿 现在假设我们创建了以下约束,并始终将它们附加到它们最近的共同祖先: null

  • 问题内容: 在我们的Selenium自动化测试中,我们隐式和显式等待。按照JimEvan的想法,不要混为一谈。因此计划删除隐式等待。 对于我们的测试,每当我们与元素交互时,我们都会使用ignoring显式等待其可见,可点击等。这就是为什么我不认为它会立即抛出。 这样可以确保删除隐式等待不会影响我的测试。除此之外,我想知道它是否有可能破坏测试。根据您的经验,我想了解它的影响,因此要求在此分享您的观点

  • 我想通过删除所有具有相同值的行,但无法获取。

  • 我想更新/删除OWL类中的公理(例如SubclassOf axioms)。 我有以下两种方法: 1)删除所有旧公理,然后创建所有新公理。 我想用-

  • 我正在测试每个执行器的不同内核数(executor cores)对Spark上SVD的运行时的影响。随着执行器内核的固定,主数据RDD的分区数量也会发生变化。然而,对于给定数量的RDD分区,不同的执行器内核的SVD计算时间似乎没有显著变化。这有点令人困惑。 我的环境是: Spark Cluster具有3个节点(每个节点32个内核和32GB内存)。每个节点运行1个Worker。 spark.max.

  • 问题内容: 在iOS(Safari 5)上,我必须遵循以下输入元素(顶部内部阴影): 我想删除顶部阴影,但无法保存错误。 当前样式是: 问题答案: 您需要使用来覆盖默认的IOS样式。但是,仅选择CSS中的标记不会覆盖默认的IOS样式,因为IOS使用属性选择器添加了它的样式。因此,您的CSS将需要使用属性选择器来覆盖已预设的默认IOS CSS样式。 尝试这个: