Question

Итак, я работаю со своей командой над сценарием Python, который подключается к Управляемой потоковой передаче Amazon для конечной точки Apache Kafka (AWS MSK) . Мы хотим запустить скрипт, который будет обрабатывать каждый фрагмент данных в очереди и сохранять результаты в S3 . Мы также хотим обрабатывать каждый фрагмент данных только один раз. Поток может иметь небольшие объемы данных иногда и огромные объемы данных в другое время.

Каков наилучший способ сделать это?

Мы думали о том, чтобы иметь постоянно работающий скрипт Python, который опрашивает все время ... это возможно?
Мы также думали о написании Python сценарий, который запомнит смещение (то есть обработает несколько фрагментов данных, а затем запомнит точку, в которой он остановился, чтобы он мог возобновить работу в этом месте в следующий раз) и запустит сценарий асинхронно ... это хороший подход? Глядя на kafka- python API , я очень растерялся, если это возможно. kafka- python потребительский API

Пожалуйста, дайте мне знать, если у вас есть какие-либо идеи, спасибо.

Kafka Python Вопрос по разработке сценариев потоковой обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Kafka Python Вопрос по разработке сценариев потоковой обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы