Question

Если я использую

sc.textFile("/my/dir1")

для создания СДР для всех файлов в каталоге, и там уже пишется другое приложение (поэтому, если обработка будет продолжительной, будут добавлены новые файлы), будет запускаться также получение новых или только найденных при запуске? (Мне действительно нужно последнее ...)

Avishek Bhattacharya · Answer 1 · 10 сентября 2018

Краткий ответ - НЕТ. Причина в том, что RDD или Dataframe является неизменной структурой данных. После того как вы создали RDD / Dataframe, вы не сможете добавить эту структуру данных.

Когда вы читаете данные в каталоге, в RDD создается spark, который отслеживает разделы в прочитанных данных. Этот СДР тогда не является изменчивым. Таким образом, spark продолжит выполнение с разделами, найденными при запуске

Альтернативой этому является использование искровой потоковой передачи, при которой новые данные обнаруживаются при добавлении в каталог.

Будет ли Spark получать новые файлы из каталога после начала обработки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Будет ли Spark получать новые файлы из каталога после начала обработки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов