Kafka Python Вопрос по разработке сценариев потоковой обработки - PullRequest
0 голосов
/ 13 февраля 2020

Итак, я работаю со своей командой над сценарием Python, который подключается к Управляемой потоковой передаче Amazon для конечной точки Apache Kafka (AWS MSK) . Мы хотим запустить скрипт, который будет обрабатывать каждый фрагмент данных в очереди и сохранять результаты в S3 . Мы также хотим обрабатывать каждый фрагмент данных только один раз. Поток может иметь небольшие объемы данных иногда и огромные объемы данных в другое время.

Каков наилучший способ сделать это?

  • Мы думали о том, чтобы иметь постоянно работающий скрипт Python, который опрашивает все время ... это возможно?
  • Мы также думали о написании Python сценарий, который запомнит смещение (то есть обработает несколько фрагментов данных, а затем запомнит точку, в которой он остановился, чтобы он мог возобновить работу в этом месте в следующий раз) и запустит сценарий асинхронно ... это хороший подход? Глядя на kafka- python API , я очень растерялся, если это возможно. kafka- python потребительский API

Пожалуйста, дайте мне знать, если у вас есть какие-либо идеи, спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...