Меня просят проиндексировать более 3 * 10 ^ 12 документов в эластичном кластере, кластер имеет 50 узлов с 40 ядрами и 128 ГБ памяти.Мне удалось сделать это с _bulk на языке Python (многопоточность), но я не смог достичь более 50 000 записей в секунду для одного узла.
Поэтому я хочу знать:
- Какой самый быстрый способ индексации данных?
- Как я знаю, я могу индексировать данные для каждого узла данных, растет ли он линейно?Я имею в виду, у меня может быть 50 000 записей для каждого узла?