По моему опыту, если вы отправите свою работу таким образом, файл должен быть доступен внутри вашей работы в Dataproc:
gcloud dataproc jobs submit spark \
--cluster cluster_name \
--region europe-west1 \
--class your_java_class \
--jars your_jars \
--files gs://bucket_name/file_name.csv
Таким образом, код * file_name.csv
'может быть доступен для кода внутри вашей работы, и вам не нужно делать ничего лишнего. Тем не менее, я думаю, что таким образом файлы на самом деле физически копируются на ваши машины. Это работает для меня, так как мне нужны только небольшие файлы. Если вы действительно хотите сохранить файлы в своем хранилище и получить к ним прямой доступ, возможно, лучше использовать подход Hadoop.
Я думаю, что это гораздо проще сделать из сценария, а не из консоли UI, так как мне не удалось заставить его работать через консоль UI.