Контрольная точка Spark Structured Streaming с источником данных S3 - PullRequest
0 голосов
/ 30 августа 2018

У меня есть данные, которые постоянно помещаются в несколько сегментов S3. Я хочу настроить приложение структурированной потоковой передачи, которое использует сегменты S3 в качестве источника данных и выполняет потоковые соединения.

Мой вопрос: если приложение по какой-то причине не работает, будет ли перезапуск приложения продолжать обработку данных с S3, на котором оно было остановлено?

Так, например, если у меня есть 5 файлов JSON с 100 записями в каждом файле. И искра не удалась при обработке десятой записи в 3-м файле. Когда запрос снова запустится, начнется ли обработка с десятой записи в 3-м файле?

...