Я пытаюсь запустить свой код Beam на Spark для POC.Я запускаю приложение в Google Cloud Dataproc для тестирования.Это очень простой тест для чтения из темы PubSub и записи сообщения в корзину в Google Cloud Storage.Кластер Dataproc имеет правильную версию для Spark и имеет доступ к другим API GCP.
Я также пытался использовать FileIO, но это тоже не сработало.Я попытался опубликовать в другой теме PubSub вместо того, чтобы писать, и это сработало, но это не мой вариант использования.Я пробовал печатать перед записью в TextIO, и это подтвердило, что я могу читать сообщения из PubSub.
Вот конвейер:
PCollection<String> messages = pipeline
.apply(PubsubIO.readStrings().fromSubscription(sub))
.apply(Window.into(FixedWindows.of(Duration.standardSeconds(1))));
messages.apply(TextIO.write().to("gs://...").withNumShards(1).withWindowedWrites());
pipeline.run();
Я не вижу никаких журналов при выводе задания Dataproc.Никаких ошибок или вообще ничего.В ведре также нет файла.