我问是因为在解决问题时我们的搜索处于不断变化的状态,但是每次我们更改索引(更改标记器或过滤器,或分片/副本的数量)时,我们都必须删除整个索引,将我们所有的Rails模型重新索引回Elasticsearch
… …这意味着我们必须考虑停机时间来重新索引所有记录。
有一种我不知道的聪明方法吗?
我认为@karmi正确。但是,让我解释一下更简单。我偶尔需要使用一些新属性或分析设置来升级生产模式。我最近开始使用下面描述的方案进行实时,恒定负载,零停机时间的索引迁移。您可以远程进行。
步骤如下:
real1
和别名real_write
,real_read
指向它,real_write
,只有从读取real_read
,_source
文档的属性可用。real2
使用您选择的新映射和设置创建索引。
使用以下批量查询开关写入别名。
curl -XPOST 'http://esserver:9200/_aliases' -d '
{
"actions" : [
{ "remove" : { "index" : "real1", "alias" : "real_write" } },
{ "add" : { "index" : "real2", "alias" : "real_write" } }
]
}'
这是原子操作。从此时开始real2
,所有节点上都将填充新客户端的数据。读者仍然使用旧的real1
via real_read
。这是最终的一致性。
数据必须从迁移real1
到real2
,但是其中的新文档real2
不能被旧条目覆盖。迁移脚本应将bulk
API与create
操作一起使用(不是index
或update
)。我使用简单的Ruby脚本es-
reindex
,它具有不错的ETA状态:
$ ruby es-reindex.rb http://esserver:9200/real1 http://esserver:9200/real2
2017年更新 您可以考虑使用新的Reindex
API
而不是使用脚本。它具有许多有趣的功能,例如冲突报告等。
现在real2
是最新的,客户正在写信,但是他们仍在阅读real1
。让我们更新阅读器别名:
curl -XPOST 'http://esserver:9200/_aliases' -d '
{
"actions" : [
{ "remove" : { "index" : "real1", "alias" : "real_read" } },
{ "add" : { "index" : "real2", "alias" : "real_read" } }
]
}'
写入和读取转到real2
。您可以real1
从ES群集中备份和删除索引。
做完了!
问题内容: 我有一个大约2亿个文档的ElasticSearch索引,总索引大小为90Gb。 我更改了映射,所以我希望ElasticSearch重新索引所有文档。 我编写了一个脚本,该脚本创建一个新索引(具有新映射),然后遍历旧索引中的所有文档,然后将其放入新索引中。 它似乎可以工作,但是问题是它的运行速度非常慢。它从两天前以300个文档/分钟开始,现在的速度是150个文档/分钟。 该脚本在elas
我对弹性搜索一无所知。所以,如果这是一个愚蠢的问题,请原谅我,我的问题可能已经在其他地方得到了回答,但我找不到。我想使用弹性搜索作为我的网络中PDF和docx的搜索引擎。我使用fscrawler将PDF文件吸收到弹性搜索中。因为我要摄取的文档是几种语言的,所以我想使用n-graming进行词干分析。为此,我想像这样更新我的映射 现在我收到了这个错误信息 {“error”:{“root_cause”
除了把它们全部输入外,还有没有更好的方法在字符串中列出它们?
我有一个javascript函数,它接受一个数组,并对该数组的每个项执行另一个函数。有很多重复的部分,所以我假设有一种更简单的递归方式来写这个: null null 数组中的每个项要么是字符串,要么是嵌套数组。字符串不必是唯一的,所以我认为我不能使用object和map()来代替。
问题内容: 我有一个社交模型,用户可以在其中喜欢照片。 我的照片文档如下所示: 我的问题是,只要照片得到其他用户的喜欢,我就必须更新我的文档。此更新是否使Elasticsearch自动为其重新编制索引(知道“ likes”属性未在我的映射中编制索引)还是仅在我的索引属性已更改时才完成? 我关心的是这里的表现。 问题答案: elasticsearch中的文档是不可变的。更新文档始终是重新索引,并且包
我想使用以下循环创建一个新列。表中只有“open”和“start”列。我想创建一个新列“startopen”,如果“start”等于1,那么“startopen”等于“open”。否则,“startopen”等于此新创建列上方行中的任何“startopen”。目前,我能够通过以下方式实现这一点: 这有效,但对于大型数据集来说非常慢。是否有任何内置函数可以更快地完成此操作?