Каков рекомендуемый рабочий процесс при работе в кластере Kubernetes с использованием Dask? - PullRequest
1 голос
/ 07 марта 2019

Я настроил кластер Kubernetes с использованием Kubernetes Engine на GCP, чтобы работать над некоторой предварительной обработкой данных и моделированием с использованием Dask. Я установил Dask, используя Helm , следуя этим инструкциям .

Прямо сейчас я вижу, что есть две папки, work и examples

enter image description here

Мне удалось выполнить содержимое записных книжек в папке example, подтверждая, что все работает как положено.

Мои вопросы сейчас следующие:

  • Каким рабочим процессам следует следовать при работе в кластере? Должен ли я просто создать новый блокнот под work и начать прототипирование сценариев предварительной обработки данных?
  • Как я могу гарантировать, что моя работа не будет стерта при обновлении развертывания Helm? Вы бы просто вручную переносили их в ведро каждый раз, когда обновлялись (что кажется утомительным)? или вы создадите простой экземпляр vm, создадите там прототип, а затем переместите все в кластер при работе с полным набором данных?

Я новичок в работе с данными в распределенной среде в облаке, поэтому любые предложения приветствуются.

1 Ответ

1 голос
/ 10 марта 2019

Каким рабочим процессам следует следовать при работе в кластере?

Есть много рабочих процессов, которые хорошо работают для разных групп. Нет единого благословенного рабочего процесса.

Должен ли я просто создать новую рабочую тетрадь и приступить к созданию прототипов сценариев предварительной обработки данных?

Конечно, это было бы хорошо.

Как я могу гарантировать, что моя работа не будет стерта при обновлении развертывания Helm?

Вы можете сохранить свои данные в более постоянном хранилище, например в облачном хранилище или в хранилище git, размещенном в другом месте.

Вы бы просто вручную переносили их в корзину каждый раз, когда обновлялись (что кажется утомительным)?

Да, это будет работать (и да, это так)

или вы создадите простой экземпляр vm, создадите там прототип, а затем переместите все в кластер при работе с полным набором данных?

Да, это также сработало бы.

В итоге

Диаграмма Helm включает в себя сервер ноутбуков Jupyter для удобства и простоты тестирования, но он не заменяет полноценный пакет для долгосрочной и постоянной производительности. Для этого вы можете рассмотреть проект, подобный JupyterHub (который решает проблемы, которые вы перечислили выше), или один из многих вариантов, ориентированных на предприятия, представленных сегодня на рынке. Было бы легко использовать Dask вместе с любым из них.

...