Я изучаю свои варианты контрольных точек с помощью Spark Structured Streaming и прочитал , что "возможная согласованность" S3 не идеальна для контрольных точек . Я пытаюсь определить, так ли это? Я сомневаюсь, что задание структурированной потоковой передачи Spark будет записывать в расположение контрольной точки, а затем читать из нее в рамках задания, чтобы определить, с чего продолжить. Разве текущая контрольная точка не будет также сохранена в памяти в контексте задания (что означает, что чтение из S3 не потребуется для определения текущей контрольной точки)?
Я могу указать местоположение на S3 для контрольных точек, но я пытаюсь определить, противоречит ли это передовой практике. Может кто-нибудь пояснить, не оптимально ли использовать S3 в качестве контрольной точки, и если да, то почему?