Я пытался настроить кластер эластичного поиска для обработки некоторых данных журнала с некоторых 3D-принтеров.у нас более 850 тысяч документов, генерируемых каждый день на 20 машинах.у каждого из них есть свой индекс.
В настоящее время у нас есть данные за 16 месяцев, с которыми нужно составить около 410M записей для индексации в каждом из индексов эластичного поиска.мы обрабатываем данные из CSV-файлов с искрой и записываем их в кластер эластичного поиска с 3 компьютерами, каждый из которых имеет 16 ГБ ОЗУ и 16 ядер ЦП.но каждый раз, когда мы достигаем около 10-14M документа / индекса, мы получаем ошибку сети.
Job aborted due to stage failure: Task 173 in stage 9.0 failed 4 times, most recent failure: Lost task 173.3 in stage 9.0 (TID 17160, wn21-xxxxxxx.ax.internal.cloudapp.net, executor 3): org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (check network and/or proxy settings)- all nodes failed; tried [[X.X.X.X:9200]]
Я уверен, что это не сетевая ошибка, это только набор средств поиска, который не может обработать больше запросов на индексирование.
Чтобы решить эту проблему, я попытался настроить многие параметры эластичного поиска, такие как: refresh_interval
, чтобы ускорить индексацию и избавиться от ошибки, но ничего не помогло.после мониторинга кластера мы думаем, что мы должны увеличить его.
мы также пытались настроить искровой разъем упругого поиска, но безрезультатно.
Итак, я ищу правильный способ выбора размера кластера?есть ли рекомендации по выбору размера кластера?любые основные моменты будут полезны.
Примечание: нас интересует в основном индексация данных, поскольку у нас есть только один или два запроса к данным, чтобы получить некоторые метрики.