Multi Get API可以通过索引名、类型名、文档id一次得到一个文档集合,文档可以来自同一个索引库,也可以来自不同的索引库。
GET /_mget
{
"docs":[
{
"_index": "lib",
"_type": "user",
"_id": "1"
},
{
"_index": "lib",
"_type": "user",
"_id": "2"
},
{
"_index": "lib",
"_type": "user",
"_id": "3"
}
]
}
# 可以指定具体的字段
GET /_mget
{
"docs":[
{
"_index": "lib",
"_type": "user",
"_id": "1",
"_source": "interests"
},
{
"_index": "lib",
"_type": "user",
"_id": "2",
"_source": {"age","interests"}
}
]
}
# 获取同索引同类型下的不同文档
GET /lib/user/_mget
{
"docs":[
{
"_id": "1"
},
{
"_type": "user", # 若是指定索引和类型必须和请求头上的保持一致,否者将会报错。
"_id": "2"
}
]
}
# 也可以使用下面这种更为简化的写法
GET /lib/user/_mget
{
"ids":["1","2"]
}
bulk的格式:
{action:{metadata}}\n
{requstbody}\n (请求体)
示例:
{"delete":{"_index":"lib","_type":"user","_id":"1"}}
批量添加
POST /lib2/books/_bulk
{"index":{"_id":1}} # 行为:索引信息
{"title":"Java","price","55"} # 请求体
{"index":{"_id":2}}
{"title":"Html5","price","45"}
{"index":{"_id":3}}
{"title":"Php","price","35"}`
{"index":{"_id":4}}
{"title":"Python","price","50"}
# 返回结果
{
"took": 60,
"error": false # 请求是否出错,返回false、具体的错误
"items": [
# 操作过的文档的具体信息
{
"index":{
"_index": "lib",
"_type": "user",
"_id": "1",
"_version": 1,
"result": "created", # 返回请求结果
"_shards": {
"total": 1,
"successful": 1,
"failed": 0
},
"_seq_no": 0,
"_primary_trem": 1
"status": 200
}
},
...
]
}
批量删除
删除的批量操作不需要请求体
POST /lib/books/_bulk
{"delete":{"_index":"lib","_type":"books","_id":"4"}} # 删除的批量操作不需要请求体
{"create":{"_index":"tt","_type":"ttt","_id":"100"}}
{"name":"lisi"} # 请求体
{"index":{"_index":"tt","_type":"ttt"}} # 没有指定_id,elasticsearch将会自动生成_id
{"name":"zhaosi"} # 请求体
{"update":{"_index":"lib","_type":"books","_id":"4"}} # 更新动作不能缺失_id,文档不存在更新将会失败
{"doc":{"price":58}} # 请求体
bluk一次最大处理多少数据量
bulk会将要处理的数据载入内存中,所以数据量是有限的,最佳的数据两不是一个确定的数据,它取决于你的硬件,你的文档大小以及复杂性,你的索引以及搜索的负载。
一般建议是1000-5000个文档,大小建议是5-15MB,默认不能超过100M,可以在es的配置文件(即$ES_HOME下的config下的elasticsearch.yml)中,bulk的线程池配置是内核数+1。
bulk批量操作的json格式解析
bulk的格式:
{action:{metadata}}\n
{requstbody}\n (请求体)
为什么不使用如下格式:
[{"action":{},"data":{}}]
这种方式可读性好,但是内部处理就麻烦;耗费更多内存,增加java虚拟机开销: