Чтобы навсегда сохранить файл данных pandas из сеанса Google Colab на моем диске Google - PullRequest
0 голосов
/ 06 июня 2019

Я подключил свой диск Google в записную книжку Colab, и у меня есть довольно большой файл данных pandas, и я попытался перейти к mydf.to_feather (путь), где путь находится на моем диске Google.Ожидается, что он будет 100мг и будет длиться вечно.

Ожидается ли это?кажется, что сетевая связь между colab и google drive невелика.Кто-нибудь знает, находятся ли серверы в одном регионе / зоне?

Мне может потребоваться изменить рабочий процесс, чтобы избежать этого.Если у вас есть лучшая практика или предложение, пожалуйста, дайте мне знать, что-нибудь кроме того, чтобы пройти все GCP (что я ожидаю, не имеют такого рода задержки).

1 Ответ

0 голосов
/ 07 июня 2019

Если вы обнаружите, что вызываете df.to_feather («где-то на вашем gdrive») из Google Colab, и оно порядка ~ X00 МБ, вы можете столкнуться со спорадической производительностью. Сохранение файла может занять от нескольких минут до целого часа. Я не могу объяснить это поведение.

Обходной путь : Сначала сохраните в / content /, локальный каталог хост-машины colab. Затем скопируйте файл из / content в вашу директорию gdrive mount. Это, кажется, работает намного более последовательно и быстрее для меня. Я просто не могу объяснить, почему .to_feather так сильно страдает от gdrive.

...