Мы используем Google Cloud Dataproc для быстрого анализа данных и часто используем ноутбуки Jupyter. Распространенным случаем для нас является создание отчета, который мы затем хотим загрузить в формате csv.
В локальной среде Jupyter это возможно с помощью FileLink
, например:
from IPython.display import FileLinks
df.to_csv(path)
FileLinks(path)
Это не работает с Dataproc, поскольку записные книжки хранятся в корзине Google Storage, а сгенерированные ссылки относятся к этому префиксу, например, http://my-cluster-m:8123/notebooks/my-notebooks-bucket/notebooks/my_csv.csv
Кто-нибудь знает, как это побороть? Конечно, мы можем scp
файл с машины, но мы ищем что-то более удобное.