Можно ли перемещать выходные файлы во время потоковой передачи без прерывания работы с искрой? - PullRequest
0 голосов
/ 01 декабря 2019

У меня есть задание структурированной потоковой передачи, работающее с Кафкой в ​​качестве источника, выводящее файлы orc в режиме добавления. Пока работа выполняется, я каждый раз перемещаю файлы (хочу) в папку hdfs. Перемещая файлы, работа с искрой будет когда-либо падать или приводить к плохим результатам в результате? Когда спарк пишет файл, будет ли он когда-либо снова смотреть на файл? Я хочу выполнить перемещение файлов, но не хочу никоим образом прерывать искру.

1 Ответ

2 голосов
/ 05 декабря 2019

Когда вы добавляете данные, перемещение файлов не повлияет на вашу работу структурированной потоковой передачи, пока каталог _spark_metadata, который генерируется в вашей выходной папке, и каталог контрольных точек остаются в синхронизации.

...