Кафка, какой объем его использовать? - PullRequest
1 голос
/ 05 марта 2019

Я работаю над проектом централизации журналов.

Я работаю с ELK для сбора / агрегирования / хранения / визуализации моих данных. Я вижу, что Кафка может быть полезна для большого объема данных, но Я не могу найти информацию, из какого объема данных может стать интересным его использование.

10 Гига логов в день? Меньше, больше?

Спасибо за вашу помощь.

1 Ответ

1 голос
/ 05 марта 2019

Давайте подойдем к этому двумя способами.

  1. Для каких объемов данных подходит Кафка ? Кафка используется в больших масштабах ( Netflix , Uber , Paypal , Twitter и т. Д.) И малых.

    Вы можете начать с кластера из трех брокеров, обрабатывающих несколько МБ, если хотите, и масштабировать оттуда по мере необходимости. 10 ГБ данных в день было бы совершенно разумно в Кафке, но так было бы в десять раз или в десять раз больше

  2. Для чего подходит Кафка ? В контексте вашего вопроса Kafka служит управляемой событиями точкой интеграции между системами. Это может быть «тупой» конвейер, но поскольку он сохраняет данные, которые позволяют его повторное использование в другом месте. Он также предлагает собственные возможности обработки потоков и интеграция с другими системами .

    Если все, что вы делаете, получает логи в Elasticsearch, то Кафка может быть излишним. Но если вы хотите использовать эти данные журнала в другом месте (например, HDFS, S3 и т. Д.), Или обработать их для шаблонов, или отфильтровать их для условий для маршрутизации в другое место - тогда Кафка будет разумным вариантом для маршрутизации. Этот доклад исследует некоторые из этих концепций.

Что касается ELK и Kafka, Logstash и Beats могут записывать в Kafka в качестве выхода, и есть Kafka Connect для Elasticsearch

Отказ от ответственности: я работаю на Confluent.

...