Итак, я работаю со своей командой над сценарием Python, который подключается к Управляемой потоковой передаче Amazon для конечной точки Apache Kafka (AWS MSK) . Мы хотим запустить скрипт, который будет обрабатывать каждый фрагмент данных в очереди и сохранять результаты в S3 . Мы также хотим обрабатывать каждый фрагмент данных только один раз. Поток может иметь небольшие объемы данных иногда и огромные объемы данных в другое время.
Каков наилучший способ сделать это?
- Мы думали о том, чтобы иметь постоянно работающий скрипт Python, который опрашивает все время ... это возможно?
- Мы также думали о написании Python сценарий, который запомнит смещение (то есть обработает несколько фрагментов данных, а затем запомнит точку, в которой он остановился, чтобы он мог возобновить работу в этом месте в следующий раз) и запустит сценарий асинхронно ... это хороший подход? Глядя на kafka- python API , я очень растерялся, если это возможно. kafka- python потребительский API
Пожалуйста, дайте мне знать, если у вас есть какие-либо идеи, спасибо.