Два задания потоковой передачи Spark не могут записывать в один и тот же базовый путь - PullRequest
0 голосов
/ 17 января 2020

Spark Structured Streaming не позволяет двум заданиям структурированной потоковой передачи записывать данные в один и тот же базовый каталог, что возможно при использовании dstreams.

Поскольку каталог _spark_metadata будет создан по умолчанию для одного задания, второе задание не может использовать тот же каталог, что и базовый путь, так как каталог _spark_metadata уже создан другим заданием. Это исключение.

Есть ли обходной путь для этого, кроме создания отдельных базовых путей для обоих заданий.

Можно ли создать каталог _spark_metadata где-нибудь еще или отключить без потери данных.

Если бы мне пришлось изменить базовый путь для обоих заданий, то вся моя инфраструктура будет затронута, поэтому я не буду Я не хочу этого делать.

1 Ответ

0 голосов
/ 17 января 2020

Нет, изменение имени или местоположения каталога метаданных пока невозможно. Вы можете обратиться к этой ссылке для получения дополнительной информации.

Не могли бы вы объяснить, почему вам придется изменить модель вашего проекта для изменения пути. Является ли путь жестко закодированным? Или вы читаете эти данные определенным образом, на что это не повлияет?

...