Как эффективно индексировать файл json с помощью поиска elasti c и python? - PullRequest
0 голосов
/ 22 апреля 2020

Я новичок в Elasticsearch. Я пытаюсь проиндексировать файл json, который содержит более 100 000 объектов. Формат моего json файла:

    [{"ingredients": [{"text": "Butter"}, {"text": "Strawberries"}, {"text": "Granola"}], 
    "url": "http://tastykitchen.com/recipes/breakfastbrunch/yogurt-parfaits/", 
    "title": "Yogurt Parfaits", 
    "id": "000095fc1d", 
    "instructions": [{"text": "Layer all ingredients in a serving dish."}]},
     {"ingredients":
     .....]

Это в виде списка. Код python, который я использую write сейчас для индексирования файла:

from elasticsearch import Elasticsearch
es = Elasticsearch([{'host': 'localhost','port': 9200}])
f = open('data.json')
import json
data = json.load(f)
for i in data:
     res = es.index(index='food',doc_type='Recipe',id=i["id"],body=i)

Этот метод занимает много времени и неэффективен. Другие методы, которые я прочитал, нуждались в файле в формате:

{"index": {"_index": "index_name", "_type": "index_type", "_id": "doc_id"}}
{"ingredients:....

Можете ли вы предложить эффективный метод индексирования файла?

1 Ответ

0 голосов
/ 22 апреля 2020

Попробуйте использовать Elasticsearch bulk Api

Выполняет несколько операций индексации или удаления за один вызов API. Это уменьшает накладные расходы и может значительно увеличить скорость индексации.

https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-bulk.html#docs -навал https://elasticsearch-py.readthedocs.io/en/master/helpers.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...