dataproc переименовывает файлы, записанные программой spark в папку GCS - PullRequest
0 голосов
/ 21 февраля 2019

Я использую Dataproc для реализации искровых заданий с использованием Scala.Цель моей работы - прочитать данные в GCS, выполнить некоторые преобразования и затем записать данные результатов в GCS.Файлы, которые мы получили от spark write, это PART-00, я хочу переименовать их, но я не могу найти никакого решения, так как записанные файлы находятся в gcs, а не в hdfs.Любая идея, как решить эту проблему, пожалуйста.большое спасибо.

1 Ответ

0 голосов
/ 22 февраля 2019

В кластере Dataproc вы все равно можете запускать те же команды hadoop fs -mv для GCS, как и для HDFS, за исключением того, что вы используете полный путь "gs: // bucket / filename ...".

...