при сбое потоковой передачи после чтения 50 строк файла.Будет ли он начинаться с 51-й строки файла при запуске в следующий раз или будет снова считываться с начала файла.
Либо весь файл полностью обработан, либо его нет вообще.Вот как FileFormat работает в целом в Spark SQL и имеет мало общего с Spark Structured Streaming, в частности (поскольку они совместно используют базовую инфраструктуру выполнения).начало файла. "
Это также говорит о том, что при обработке файлов в Spark Structured Streaming нет концепции единой строки.Вы обрабатываете потоковый DataFrame, который представляет собой целый файл (или даже пару файлов) одновременно, и хотите ли вы обрабатывать набор данных построчно или полностью, решать вам, разработчик Spark.
Кроме того, возникнут ли у нас какие-либо проблемы, если мы будем использовать контрольные точки в структурированной потоковой передаче при любом обновлении или любом изменении в коде.
Теоретически этого не следует делать.Целью нового механизма контрольных точек в Spark Structured Streaming (по сравнению с устаревшей Spark Streaming) было обеспечение возможности перезапусков и обновлений более удобным способом.Контрольная точка использует немного информации (обычно хранится в файлах JSON) для возобновления обработки с точки последней успешной контрольной точки.