Импорт набора данных с использованием logstash в ElasticSearch идет медленно - PullRequest
0 голосов
/ 13 января 2019

Мне нужно импортировать текстовый файл (без структуры, только построчные данные), но мне кажется, что он мог бы работать лучше. Я уже внес некоторые изменения в конфигурацию logstash и набрал около 200%, используя опции -b и -w (я нашел приятное место). Но все же это слишком медленно для моих нужд.

HW: i5 7600k при 4,5 ГГц, 32 ГБ оперативной памяти DDR4, SSD Intel 512 ГБ Файл: 26 ГБ, ~ 800 000 000 строк Текущая скорость с опциями -b 1000 и -w 16: 2 500 000 в минуту ~ 41 000

за с

Скорость, которую я ищу, составляет около 500 000 в секунду.

Файл конфигурации Logstash:

input {
    file {
        path => "/home/w-nsa/dataset.txt"
        start_position => "beginning"
        sincedb_path => "/dev/null"
    }

}

output {
    elasticsearch {
        hosts => "http://8.8.3.2:9200"
        index => "test"
    }
}

1 Ответ

0 голосов
/ 15 января 2019

Ваше узкое место может быть скоростью индексации со стороны упругого поиска.

Как настроены ваши серверы? Logstash и Elasticsearch находятся на одной машине? Что такое куча Java для каждого?

Эта направляющая из эластичного материала имеет несколько советов по улучшению скорости индексации.

Вы должны попытаться проиндексировать свои данные и контролировать ввод-вывод на машине эластичного поиска, используя инструмент, подобный iostat и iotop, чтобы увидеть, как машина ведет себя при большой нагрузке.

...