Java-MongoDB + Solr性能

朱炜

2023-03-14

问题内容：

我一直在四处查看，以了解如何将MongoDB与Solr结合使用，这里的一些问题有部分答案，但没有什么具体的（更像是理论）。在我的应用程序中，我将在MongoDB中存储很多文档（可能多达几亿个），并且我想对这些文档的某些属性实施全文搜索，所以我想Solr是最好的方法这个。

我想知道的是我应该如何配置/执行所有操作以使其具有良好的性能？现在，这是我的工作（我知道这不是最佳选择）：

1-在MongoDB中插入对象时，我将其添加到Solr

SolrServer server = getServer();
SolrInputDocument document = new SolrInputDocument();
document.addField("id", documentId);
...
server.add(document);
server.commit();

2-当更新对象的属性时，由于Solr不能仅更新一个字段，因此首先从MongoDB中检索对象，然后使用对象和新属性中的所有属性更新Solr索引，并执行类似的操作

StreamingUpdateSolrServer update = new StreamingUpdateSolrServer(url, 1, 0);
SolrInputDocument document = new SolrInputDocument();
document.addField("id", documentId);
...
update.add(document);
update.commit();

3-查询时，首先查询Solr，然后在检索文档列表时SolrDocumentList浏览每个文档，并且：

获取文件ID
从MongoDB获得具有相同ID的对象，以便能够从那里检索属性

4-删除时，我还没有完成那部分，也不确定如何在Java中完成

因此，对于在此描述的每个方案，有人对如何以更有效的方式执行此操作有建议吗？是否喜欢这样的过程：在Solr中有很多文档并一次添加一个文档时，无需花费1个小时即可重建索引？我在这里的要求是，用户可能希望一次，多次添加一个文档，我希望他们能够在之后立即检索该文档。

问题答案：

您的方法实际上是好的。一些流行的框架（例如Compass）正在较低级别执行您描述的内容，以自动反映通过ORM框架执行的索引更改（请参阅http://www.compass-
project.org/overview.html
）。

除了您要描述的内容之外，我还将定期重新索引MongoDB中的所有数据，以确保Solr和Mongo都同步（可能不像您想的那样长，具体取决于文档数量，字段数，每个字段的令牌数和分析器的性能：使用复杂的分析器，我经常在不到15分钟的时间内创建5到8百万个文档的索引（大约20个字段，但是文本字段很短）您的RAM缓冲区不会太小，并且在添加所有文档之前不要提交/优化）。

关于性能，提交是昂贵的，而优化是非常昂贵的。根据最重要的事情，您可以更改Solrconfig.xml中的mergefactor的值（高的值可以提高写入性能，而低的值可以提高读取性能，最好从10开始）。

您似乎担心索引建立时间。但是，由于Lucene索引存储是基于段的，因此写吞吐量不应过多地依赖于索引的大小（http://lucene.apache.org/java/2_3_2/fileformats.html）。但是，预热时间会增加，因此您应确保

在solrconfig.xml配置文件中的firstSearcher和newSearcher参数中有一些典型的（特别是用于加载字段缓存的排序），但不是太复杂的查询，
useColdSearcher设置为
- 假以具有良好的搜索性能，或
- 如果希望以较慢的搜索速度更快地考虑对索引执行的更改，则为true。

此外，如果在将数据写入MongoDB后仅X毫秒后才可以搜索数据，对于您来说可以接受，则可以使用UpdateHandler的commitWithin功能。这样一来，Solr便不必频繁提交。

有关Solr性能因子的更多信息，请参见
http://wiki.apache.org/solr/SolrPerformanceFactors

要删除文档，可以通过文档ID（在schema.xml中定义）或通过查询来删除：http
:
//lucene.apache.org/solr/api/org/apache/solr/client/solrj/SolrServer.html

Java-MongoDB + Solr性能

相关阅读

相关文章

相关问答

相关工具

相关文档