Лучший способ загрузить набор данных с моего ПК в экземпляр виртуальной машины на Google Cloud Platform - PullRequest
0 голосов
/ 01 июня 2019

У меня есть большой набор данных (около 50 ГБ) для глубокого обучения. Я буду тренировать свою сеть на экземпляре виртуальной машины, предоставленном Google Cloud Platform. Поэтому мне нужно загрузить свой набор данных в виртуальную машину. Я пытался использовать консоль gcloud с командой:

gcloud compute scp --recurse C:\Users\Lenovo\Desktop\dataset root@instance-1:/home/Lenovo/dataset

Работает, но до конца нужно около 50 часов.

Есть ли способ ускорить этот процесс?

У меня также есть хранилище Google Drive, в котором я сохранил свой набор данных. Можно ли напрямую загрузить в мою виртуальную машину с Google Drive? На моей виртуальной машине установлена ​​операционная система Ubuntu 18.04 LTS.

1 Ответ

1 голос
/ 01 июня 2019

Время, которое требуется, будет в основном зависеть от самого медленного соединения в сети.Предположим, что сеть, в которой размещена ваша виртуальная машина GCP (Compute Engine), не подходит к этому.Также вероятно, что ваш Google Диск также не самый медленный.Скорее всего, узким местом будет путь от вашей локальной машины, где вы запускаете gcloud.Я хотел бы предложить войти в вашу виртуальную машину на GCP и запустить загрузку с ваших данных, которые, как я понимаю, находятся на диске.

По-видимому, есть несколько способов добиться этого.

  1. Запустите VNC на вашем компьютере GCP. Это даст вам среду графического интерфейса, доступ к которой будет получен с вашего локального ПК, но представлен из GCP.Оттуда вы можете установить Chrome (на GCP), получить доступ к вашему диску и начать загрузку.

  2. Загрузить инструмент доступа к диску. Альтернативой является установка инструмента доступа к данным диска.Вот пример, который я нашел с помощью поиска Google, но другие могут работать:

https://www.howtoforge.com/tutorial/how-to-access-google-drive-from-linux-gdrive/

Следуйте там рецептам и загрузите файлы Drive на свой GCP.

Если вам нужна дополнительная работа с большими данными, рассмотрите возможность размещения ваших данных в облачном хранилище Google, и тогда будут применены дополнительные параметры.

См. передача больших наборов данных .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...