当前位置: 首页 > 面试题库 >

有没有更聪明的方法来为Elasticsearch重新编制索引?

邹高峻
2023-03-14
问题内容

我问是因为在解决问题时我们的搜索处于不断变化的状态,但是每次我们更改索引(更改标记器或过滤器,或分片/副本的数量)时,我们都必须删除整个索引,将我们所有的Rails模型重新索引回Elasticsearch
… …这意味着我们必须考虑停机时间来重新索引所有记录。

有一种我不知道的聪明方法吗?


问题答案:

我认为@karmi正确。但是,让我解释一下更简单。我偶尔需要使用一些新属性或分析设置来升级生产模式。我最近开始使用下面描述的方案进行实时,恒定负载,零停机时间的索引迁移。您可以远程进行。

步骤如下:

假设:

  • 您有索引real1和别名real_writereal_read指向它,
  • 客户端仅写入real_write,只有从读取real_read
  • _source 文档的属性可用。

1.新索引

real2使用您选择的新映射和设置创建索引。

2.作家别名切换

使用以下批量查询开关写入别名。

curl -XPOST 'http://esserver:9200/_aliases' -d '
{
    "actions" : [
        { "remove" : { "index" : "real1", "alias" : "real_write" } },
        { "add" : { "index" : "real2", "alias" : "real_write" } }
    ]
}'

这是原子操作。从此时开始real2,所有节点上都将填充新客户端的数据。读者仍然使用旧的real1via real_read。这是最终的一致性。

3.旧数据迁移

数据必须从迁移real1real2,但是其中的新文档real2不能被旧条目覆盖。迁移脚本应将bulkAPI与create操作一起使用(不是indexupdate)。我使用简单的Ruby脚本es-
reindex
,它具有不错的ETA状态:

$ ruby es-reindex.rb http://esserver:9200/real1 http://esserver:9200/real2

2017年更新 您可以考虑使用新的Reindex
API
而不是使用脚本。它具有许多有趣的功能,例如冲突报告等。

4.阅读器别名开关

现在real2是最新的,客户正在写信,但是他们仍在阅读real1。让我们更新阅读器别名:

curl -XPOST 'http://esserver:9200/_aliases' -d '
{
    "actions" : [
        { "remove" : { "index" : "real1", "alias" : "real_read" } },
        { "add" : { "index" : "real2", "alias" : "real_read" } }
    ]
}'

5.备份和删除旧索引

写入和读取转到real2。您可以real1从ES群集中备份和删除索引。

做完了!



 类似资料:
  • 问题内容: 我有一个大约2亿个文档的ElasticSearch索引,总索引大小为90Gb。 我更改了映射,所以我希望ElasticSearch重新索引所有文档。 我编写了一个脚本,该脚本创建一个新索引(具有新映射),然后遍历旧索引中的所有文档,然后将其放入新索引中。 它似乎可以工作,但是问题是它的运行速度非常慢。它从两天前以300个文档/分钟开始,现在的速度是150个文档/分钟。 该脚本在elas

  • 我对弹性搜索一无所知。所以,如果这是一个愚蠢的问题,请原谅我,我的问题可能已经在其他地方得到了回答,但我找不到。我想使用弹性搜索作为我的网络中PDF和docx的搜索引擎。我使用fscrawler将PDF文件吸收到弹性搜索中。因为我要摄取的文档是几种语言的,所以我想使用n-graming进行词干分析。为此,我想像这样更新我的映射 现在我收到了这个错误信息 {“error”:{“root_cause”

  • 除了把它们全部输入外,还有没有更好的方法在字符串中列出它们?

  • 我有一个javascript函数,它接受一个数组,并对该数组的每个项执行另一个函数。有很多重复的部分,所以我假设有一种更简单的递归方式来写这个: null null 数组中的每个项要么是字符串,要么是嵌套数组。字符串不必是唯一的,所以我认为我不能使用object和map()来代替。

  • 我想使用以下循环创建一个新列。表中只有“open”和“start”列。我想创建一个新列“startopen”,如果“start”等于1,那么“startopen”等于“open”。否则,“startopen”等于此新创建列上方行中的任何“startopen”。目前,我能够通过以下方式实现这一点: 这有效,但对于大型数据集来说非常慢。是否有任何内置函数可以更快地完成此操作?

  • 问题内容: 我有一个社交模型,用户可以在其中喜欢照片。 我的照片文档如下所示: 我的问题是,只要照片得到其他用户的喜欢,我就必须更新我的文档。此更新是否使Elasticsearch自动为其重新编制索引(知道“ likes”属性未在我的映射中编制索引)还是仅在我的索引属性已更改时才完成? 我关心的是这里的表现。 问题答案: elasticsearch中的文档是不可变的。更新文档始终是重新索引,并且包