Google Dataproc с Jupyter - загрузка файлов, созданных на ноутбуке - PullRequest
0 голосов
/ 13 января 2019

Мы используем Google Cloud Dataproc для быстрого анализа данных и часто используем ноутбуки Jupyter. Распространенным случаем для нас является создание отчета, который мы затем хотим загрузить в формате csv.

В локальной среде Jupyter это возможно с помощью FileLink, например:

from IPython.display import FileLinks
df.to_csv(path)
FileLinks(path)

Это не работает с Dataproc, поскольку записные книжки хранятся в корзине Google Storage, а сгенерированные ссылки относятся к этому префиксу, например, http://my-cluster-m:8123/notebooks/my-notebooks-bucket/notebooks/my_csv.csv

Кто-нибудь знает, как это побороть? Конечно, мы можем scp файл с машины, но мы ищем что-то более удобное.

1 Ответ

0 голосов
/ 14 января 2019

Чтобы поделиться отчетом, вы можете сохранить его в Google Cloud Storage (GCS) вместо локального файла.

Для этого вам нужно в преобразовать ваш DataFrame Pandas в Spark DataFrame и записать его в GCS:

sparkDf = SQLContext(SparkContext.getOrCreate()).createDataFrame(df)
sparkDf.write.csv("gs://<BUCKET>/<path>")
...