当前位置: 首页 > 知识库问答 >
问题:

小批量频繁更新的CloudSearch性能

甄伟兆
2023-03-14

我有一个用例,需要将小文档批(通常是1到10个1KB的文档)上传到CloudSearch。每2或3秒就会上传一个新批次。批量上传的CloudSearch文档说:

确保您的批次尽可能接近5 MB的限制。上载大量较小的批次会减慢上载和索引过程。

如果在文档出现在搜索结果中之前有30秒的延迟,也可以。随着我的文档数量不断增加,比如说增加到50万个文档,我的实现能否正常工作?

共有1个答案

秦伯寅
2023-03-14

即使有500k个文档,索引时间也应该远远低于30秒SLA,无论您是如何提交的,还是是否批量提交的。

我这样说是基于我自己的测试,在m1上有300k个文档和38个索引字段。小实例类型,文档搜索不到3秒。有很多变量可能会影响你自己的情况,比如你有多少索引字段,你的实例大小,等等,但我认为我的设置反映了不利的条件(m1.带有复杂索引模式的小实例),仍然比你的SLA快一个数量级。这当然是轶事证据,但你应该没事。

 类似资料:
  • 我希望有Apache Ignite经验的人能够帮助指导我的团队找到关于Apache Ignite新设置的答案。 数据从许多分布式传感器中不断产生,并流进我们的数据库。每个传感器每秒可能提供许多更新,但通常每秒生成<10个更新。 null 查询相当复杂,需要在时间上进行重要的(和动态的)回溯。一个查询可能需要来自一个站点中多个传感器的数据,但所需的传感器是动态确定的。大多数连续查询只需要最近几个小时

  • 问题内容: 嗨, 我的lucene索引经常用新记录更新,索引中有5,000,000条记录,并且正在使用FieldCache缓存我的一个数字字段。但是在更新索引之后,需要花费一些时间来重新加载FieldCache(由于重新加载缓存,导致文档说DocID不可靠),所以如何通过仅将新添加的DocID添加到FieldCache来最小化此开销,导致此功能成为瓶颈应用。 我想要一种通过仅将新添加的文档添加到数

  • 问题内容: 是否可以在经常修改的对象上使用缓存?例如,假设我们有一个BlogPost对象,并且有一个num_of_views列(以及其他)经常更改。是否可以在高速缓存和数据库中更新num_of_views字段,而无需破坏高速缓存对象并重新创建它?我可以手动完成,但是我担心同步问题。 问题答案: 是的。我不知道您的缓存状况如何,但是您可以随时替换缓存实例:

  • 问题内容: 我目前正在Linux系统上以python编写程序。目的是在发现特定字符串后读取日志文件并执行bash命令。日志文件正在被另一个程序不断写入。 我的问题 :如果使用该方法打开文件,我的Python文件对象将随着其他程序写入实际文件而更新,还是我必须在一定时间间隔内重新打开文件? 更新 :感谢到目前为止的答案。我也许应该提到,该文件是由Java EE应用程序写入的,所以我无法控制何时将数据

  • 操作步骤: 第一种方式: ①在"图层管理"模块,选择一个带有数据的标注图层,点击"数据视图"。 ②数据视图中点击"更新数据"。 ③可以选择本地上传或是密钥导入更新。 注意: ●更新文件里需要包含与原数据匹配的字段。 ●更新的方式为覆盖更新,重复数据将会被覆盖,新增数据将追加至图层中。 第二种方式: ①在"图层管理"模块,选择图层,点击"更多"按钮。 ②点击"更新数据" ③可以选择本地上传或是密钥导

  • 一、简介 方便用户在设置URL规则时更新url,无需手动去更新各页面URL。只需选择就能批量更新URL即可。 二、功能演示 1.批量更新URL 1、仅当内容页URL规则发上变化时,请批量更新,地址未改变时,不需要更新 。 2、规则设置:设置 > 相关设置 > 管理栏目 > 添加或修改栏目 选择需要更新的模型和栏目,输入每轮更新的信息数目提交则完成批量更新URL操作。如下图所示: