我正在使用cygwin和solr 4.8.0的nutch 1.9。我可以使用下面的代码将爬网数据索引到solr中。
bin/crawl URL/crawlresult/http://localhost:8983/solr/1
但我想在进行索引时添加一些附加字段,如indexed_by、crawled_by、crawl_name等。
我需要这方面的帮助。
提前道谢。
如果附加字段的值没有改变,那么您可以使用Nutch的索引静态插件。它允许您添加多个字段及其内容。首先需要在nutch-site.xml中启用它。然后添加如下所示的字段列表:
<property>
<name>index.static</name>
<value>indexed_by:solr,crawled_by:nutch-1.8,crawl_name:nutch</value>
<description>
Used by plugin index-static to adds fields with static data at indexing time.
You can specify a comma-separated list of fieldname:fieldcontent per Nutch job.
Each fieldcontent can have multiple values separated by space, e.g.,
field1:value1.1 value1.2 value1.3,field2:value2.1 value2.2 ...
It can be useful when collections can't be created by URL patterns,
like in subcollection, but on a job-basis.
</description>
</property>
如果这些字段的值不是静态的,并且独立于索引文档,那么您将需要编写一个IndexingFilter插件来完成此操作。看看索引静态插件,了解如何实现您的插件。
我最近开始在nutch上工作,我试图理解它是如何工作的。据我所知,Nutch基本上是用来抓取web的,Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引,或者它是否有其他一些用于索引的库?如果它使用solr/Lucene进行索引,那么为什么有必要像nutch教程所说的那样用nutch配置solr呢? 是默认情
我是hazelcast的新手,我到处都读到添加索引将提高hazelcast中的查询性能。我将数据存储在hazelcast地图中,键作为字符串,值作为便携式。如果我假设我的价值是这样的: 用于添加索引的golang文档说,在将条目添加到此映射之前,应确保添加索引 所以我对此没有什么疑问: 在给地图赋值之前,是否每次都需要添加索引?还是在应用程序生命周期中只有一次
solrserver.add(solrInputDocument); 如有任何帮助,我们将不胜感激。
我在nutch elastic Indexera上运行测试运行。我想添加一些自定义字段和自定义类型名(而不是“doc”),它们可以作为索引作业的参数。我知道是负责设置字段名和元数据的类,但不知道nutch在哪里创建实例并设置值。或者还有别的办法。请帮忙
Iam能够设置Apache Nutch并在Solr中获得数据索引。在编制索引时,我试图确保只对修改过的页面进行索引。下面是我们对此有的两个问题。 > 有没有可能告诉Nutch在抓取站点时发送“if-modified-since”头,并且只有在页面自上次抓取以来发生了更改时才下载该页面。 我可以看到Nutch正在从检索到的页面内容中形成MD5摘要,但是即使摘要没有改变(与以前的版本相比),它仍然在S
本文向大家介绍Mysql如何为表字段添加索引?相关面试题,主要包含被问及Mysql如何为表字段添加索引?时的应答技巧和注意事项,需要的朋友参考一下 1.添加PRIMARY KEY(主键索引) 2.添加UNIQUE(唯一索引) 3.添加INDEX(普通索引) 4.添加FULLTEXT(全文索引) 5.添加多列索引