Как записать dask dataframe в облачное хранилище Google или Bigquery - PullRequest
0 голосов
/ 14 февраля 2019

Я использую Google Cloud Datalab для моего проекта ML.Одна из моих данных находится в таблице больших запросов, которая содержит миллионы записей (текстовые данные) со многими столбцами.Я создал pandas dataframe из таблицы bigquery, преобразовал его в dask dataframe (с 5 разделами) и провел обработку данных.

Теперь у меня есть этот dask dataframe, который я хочу сохранить в bigquery или преобразовать в паркетные файлы и сохранить их в моем gcp хранилище.Было бы здорово услышать варианты от сообщества.Спасибо.

1 Ответ

0 голосов
/ 14 февраля 2019

Как отмечается в комментариях, это слишком большой вопрос "как мне ...".

Однако простой ответ -

df.to_parquet('gcs://mybucket/mypath/output.parquet')

Вам понадобится один изустановлены паркетные бэкэнды (fastparquet или pyarrow) и gcsfs.Для получения правильных разрешений могут потребоваться дополнительные параметры для gcsfs, используя ключевое слово storage_options={...}, см. Документацию gcsfs.

Общая информация: http://docs.dask.org/en/latest/remote-data-services.html

...