问题：

Nutch Crawl-删除每个爬行影响的段

马淇

2023-03-14

我注意到在每次Nutch抓取过程中，发送到Solr的索引不一致。有时会显示网页的最新更改，有时会显示较旧的更改。

原因

注意到Nutch将旧段的索引提供给Solr。

当前解决方案

在获取之前删除所有旧段，似乎解决了问题。

问题

想知道这种方法是否有任何含义，或者我对此的理解是不正确的。还想知道为什么Nutch在爬行过程中不会自动删除旧段。

谢谢。

共有1个答案

黎腾

2023-03-14

如果(再次)对多个段进行索引，并且相同的内容包含在两个或多个段中，则不能保证对最新版本进行索引。这是一个已知的问题(NUTCH-1416)。最简单的解决方案是只将最近获取的数据段发送给索引器。脚本< code>bin/crawl执行此操作，索引步骤在每个周期结束时为该周期中获取的数据段执行。

类似资料：

删除影响UIView的所有约束

我有一个UIView，它通过几个约束被放置在屏幕上。一些约束由superview拥有，另一些约束由其他祖先拥有（例如，可能是UIViewController的view属性）。要澄清这些解决方案的问题,请考虑以下视图层次结构：爷爷父亲我儿子女儿现在假设我们创建了以下约束，并始终将它们附加到它们最近的共同祖先： null
隐式等待删除的可能影响

问题内容：在我们的Selenium自动化测试中，我们隐式和显式等待。按照JimEvan的想法，不要混为一谈。因此计划删除隐式等待。对于我们的测试，每当我们与元素交互时，我们都会使用ignoring显式等待其可见，可点击等。这就是为什么我不认为它会立即抛出。这样可以确保删除隐式等待不会影响我的测试。除此之外，我想知道它是否有可能破坏测试。根据您的经验，我想了解它的影响，因此要求在此分享您的观点
删除每个值相同的所有行[重复]

我想通过删除所有具有相同值的行，但无法获取。
OWLAPI：处理公理更新/删除时的性能影响

我想更新/删除OWL类中的公理（例如SubclassOf axioms）。我有以下两种方法： 1）删除所有旧公理，然后创建所有新公理。我想用-
Spark：每个执行器的内核对应用程序运行时没有影响

我正在测试每个执行器的不同内核数（executor cores）对Spark上SVD的运行时的影响。随着执行器内核的固定，主数据RDD的分区数量也会发生变化。然而，对于给定数量的RDD分区，不同的执行器内核的SVD计算时间似乎没有显著变化。这有点令人困惑。我的环境是： Spark Cluster具有3个节点（每个节点32个内核和32GB内存）。每个节点运行1个Worker。 spark.max.
删除iOS输入阴影

问题内容：在iOS（Safari 5）上，我必须遵循以下输入元素（顶部内部阴影）：我想删除顶部阴影，但无法保存错误。当前样式是：问题答案：您需要使用来覆盖默认的IOS样式。但是，仅选择CSS中的标记不会覆盖默认的IOS样式，因为IOS使用属性选择器添加了它的样式。因此，您的CSS将需要使用属性选择器来覆盖已预设的默认IOS CSS样式。尝试这个：

Nutch Crawl-删除每个爬行影响的段

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档