У нас есть пакетные конвейеры, записывающие файлы (в основном csv) в корзину s3.Некоторые из этих конвейеров пишут поминутно, а некоторые - каждые 5 минут.В настоящее время у нас есть пакетное приложение, которое запускается каждый час для обработки этих файлов.
Бизнес хочет, чтобы данные были доступны каждые 5 минут.Вместо того, чтобы запускать пакетные задания каждые 5 минут, мы решили использовать Apache Spark структурированной потоковой передачи и обрабатывать данные в режиме реального времени.Мой вопрос заключается в том, насколько легко / сложно реализовать это решение?
Меня беспокоит только то, что если местоположение контрольной точки будет повреждено, удаление каталога контрольной точки приведет к повторной обработке данных за последние 1 год.Кто-нибудь разрабатывал какое-либо решение, использующее s3 с использованием искровой структурированной потоковой передачи, или вы думаете, что flink лучше для этого варианта использования?
Если вы считаете, что существует лучшая архитектура / шаблон для этой проблемы, пожалуйста, укажите мне правильное направление.
ps. Мы уже думали о том, чтобы поместить эти файлы в kafka, и исключили их из-за доступности полосы пропускания и большого размера файлов.