我对Elastic完全陌生,所以我的知识仅来自Elasticsearch网站,我需要帮助。我的任务是将html格式的大行数据索引到elasticsearch中。我已经抓取了数据并将其存储在磁盘上(200
000个html文件)。我的问题是将所有HTML文件编入elasticsearch的最简单方法是什么?我应该为每个文件手动做出弹性请求吗?例如:
curl -XPUT 'http://localhost:9200/registers/tomas/1' -d '{
"user" : "tomasko",
"post_date" : "2009-11-15T14:12:12",
"field 1" : "field data"
"field 2" : "field 2 data"
}'
第二个问题是我是否必须解析HTML文档以像示例代码中那样为JSON字段1检索数据?
最后,在建立索引之后我可以删除所有HTML文档吗?谢谢大家
我将查看批量API,该API可让您在单个请求中发送多个文档,以加快索引编制过程。您可以发送10、20或更多的文档,具体取决于文档的大小。
根据您要索引的内容,您可能需要解析html,除非您希望将整个html索引为单个字段(在这种情况下,您可能希望使用html strip
char过滤器
从索引中删除html标签。文本)。
索引后,我建议确保映射正确无误,您可以找到想要的内容。您始终可以使用Elasticsearch存储在幕后的_source特殊字段来重新索引,但是如果您已经编写了索引器代码,则可能需要在需要时再次使用它来重新索引(当然使用相同的html文档)。在实践中,您永远不会对数据进行一次索引…因此,请小心:)即使elasticsearch总是通过_source字段为您提供帮助),这只是查询现有索引并将其所有文档重新索引到另一个索引上的问题。
我有一个这样的口述: 我不知道如何将dict转储到JSON文件中,如下所示: 有没有一种pythonic的方法来实现这一点? 您可能会猜测我想生成一个树映射。
问题内容: 如何将JavaScript文件正确链接到HTML文档? 其次,如何在JavaScript文件中使用jQuery? 问题答案: 首先,您需要从http://jquery.com/下载JQuery库,然后以以下方式在html head标记中加载jquery库 那么您可以通过在jquery加载脚本之后编码您的jquery代码来测试jquery是否正常工作 如果要单独使用jquery脚本文件,
如何正确地将JavaScript文件链接到HTML文档? 其次,如何在JavaScript文件中使用jQuery?
问题内容: 我无法在HTML页面中使用PHP。例如,。我试过同时使用: 和 这些都不起作用。我的服务器提供PHP,当我使用扩展名时,它可以正常工作。这是一个问题还是我必须更改中的首选项? 问题答案: 您无法在.html文件中运行PHP,因为除非您告知服务器,否则服务器不会将其识别为有效的PHP扩展名。为此,您需要在根Web目录中创建一个.htaccess文件,并将以下行添加到其中: 这将告诉Apa
我正在尝试将收藏转储到。json文件,但在看过pymongo教程后,我找不到任何与之相关的东西。 教程链接:https://api.mongodb.com/python/current/tutorial.html
我已经在Scala中创建了一个blazegraph RDF4J存储库和连接: 我可以添加语句、检索SPARQL结果等。 现在我想将存储库的内容转储到一个RDF文件中,如下所示: 但是,如果我试图用或替换预期的模型参数,Eclipse会抱怨: 重载方法值write with备选项:(X$1:Iterable[org.openrdf.model.statement],X$2:java.io.write