Question

Меня просят проиндексировать более 3 * 10 ^ 12 документов в эластичном кластере, кластер имеет 50 узлов с 40 ядрами и 128 ГБ памяти.Мне удалось сделать это с _bulk на языке Python (многопоточность), но я не смог достичь более 50 000 записей в секунду для одного узла.

Поэтому я хочу знать:

Какой самый быстрый способ индексации данных?
Как я знаю, я могу индексировать данные для каждого узла данных, растет ли он линейно?Я имею в виду, у меня может быть 50 000 записей для каждого узла?

ThangTD · Answer 1 · 14 октября 2018

По вашему вопросу:

Баланс ваших ресурсов.И Elasticsearch, и Ваше приложение должны будут пытаться работать при 60-80% загрузки сервера, чтобы достичь наилучшей производительности.Вы можете добиться этого использования со стороны приложения, используя множественную обработку в Python или Unix xargs + Elasticsearch _bulk API.
Производительность Elasticsearch растет почти линейно с 99%, как показывает мой опыт,Если у вас правильный дизайн ваших настроек кластера / индексного сегмента.50,000 records/second для каждого узла возможно.

Вот несколько полезных ссылок, которые могут помочь:

https://www.elastic.co/guide/en/elasticsearch/guide/current/indexing-performance.html
https://qbox.io/support/article/choosing-a-size-for-nodes
https://www.elastic.co/guide/en/elasticsearch/reference/5.6/modules-threadpool.html (для мониторинга кластера во время рабочих нагрузок)

Рекомендуется проводить тестирование производительности изатем внимательно контролируйте свои кластеры + серверы приложений во время рабочих нагрузок.(Я использовал unix htop + newrelic вместе: D).

Самый быстрый способ индексировать огромные данные в эластичном

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Самый быстрый способ индексировать огромные данные в эластичном

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов