Повторная обработка данных для Elasticsearch с новым конвейером - PullRequest
0 голосов
/ 22 ноября 2018

У меня есть сервер ELK-стека, который используется для анализа данных веб-журнала Apache.Мы загружаем ВСЕ журналы, возвращаясь на несколько лет назад.Цель состоит в том, чтобы взглянуть на некоторые специфические для приложения тенденции за этот период времени.

Конвейер обработки данных все еще находится в процессе настройки, поскольку это первый раз, когда кто-то подробно изучает эти данные, и некоторые людивсе еще пытаюсь решить, как они хотят, чтобы данные были обработаны.

Были предложены некоторые изменения, и хотя их достаточно легко сделать в конвейере logstash для новых входящих данных, я не уверен, как применить эти изменения к данным, которые уже находятся в эластичном состоянии.Загрузка текущего набора данных заняла несколько дней, и было добавлено еще немного данных, поэтому повторная обработка всего через logstash с измененным конвейером, вероятно, займет несколько дней дольше.

Какой лучший способприменить эти изменения к данным, которые уже были включены в эластичный?На ранних этапах тестирования этой установки я просто удалил бы индекс и перестроил его с нуля, но это было сделано с очень ограниченными наборами данных и с количеством используемых данных, я не уверен, что это осуществимо.Есть ли лучший способ?

1 Ответ

0 голосов
/ 22 ноября 2018

Настройка конвейера загрузки и использование API переиндексации для перемещения данных из текущего индекса в новый индекс (с конвейером, настроенным для индекса назначения)

Ingest Node

...