Будет ли Spark получать новые файлы из каталога после начала обработки? - PullRequest
0 голосов
/ 10 сентября 2018

Если я использую

sc.textFile("/my/dir1")

для создания СДР для всех файлов в каталоге, и там уже пишется другое приложение (поэтому, если обработка будет продолжительной, будут добавлены новые файлы), будет запускаться также получение новых или только найденных при запуске? (Мне действительно нужно последнее ...)

1 Ответ

0 голосов
/ 10 сентября 2018

Краткий ответ - НЕТ. Причина в том, что RDD или Dataframe является неизменной структурой данных. После того как вы создали RDD / Dataframe, вы не сможете добавить эту структуру данных.

Когда вы читаете данные в каталоге, в RDD создается spark, который отслеживает разделы в прочитанных данных. Этот СДР тогда не является изменчивым. Таким образом, spark продолжит выполнение с разделами, найденными при запуске

Альтернативой этому является использование искровой потоковой передачи, при которой новые данные обнаруживаются при добавлении в каталог.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...