Каким рабочим процессам следует следовать при работе в кластере?
Есть много рабочих процессов, которые хорошо работают для разных групп. Нет единого благословенного рабочего процесса.
Должен ли я просто создать новую рабочую тетрадь и приступить к созданию прототипов сценариев предварительной обработки данных?
Конечно, это было бы хорошо.
Как я могу гарантировать, что моя работа не будет стерта при обновлении развертывания Helm?
Вы можете сохранить свои данные в более постоянном хранилище, например в облачном хранилище или в хранилище git, размещенном в другом месте.
Вы бы просто вручную переносили их в корзину каждый раз, когда обновлялись (что кажется утомительным)?
Да, это будет работать (и да, это так)
или вы создадите простой экземпляр vm, создадите там прототип, а затем переместите все в кластер при работе с полным набором данных?
Да, это также сработало бы.
В итоге
Диаграмма Helm включает в себя сервер ноутбуков Jupyter для удобства и простоты тестирования, но он не заменяет полноценный пакет для долгосрочной и постоянной производительности. Для этого вы можете рассмотреть проект, подобный JupyterHub (который решает проблемы, которые вы перечислили выше), или один из многих вариантов, ориентированных на предприятия, представленных сегодня на рынке. Было бы легко использовать Dask вместе с любым из них.