Выполнение сценария Dask в кластере GCP - PullRequest
0 голосов
/ 09 февраля 2019

Я новичок в #GCP, и мой вопрос может показаться тривиальным (извините за это).Я уже разработал распределенную версию своего кода на Python, используя Dask.Теперь я собираюсь проверить масштабируемость и производительность моего кода в #Google_Cloud.Для этого я собираюсь использовать «dataproc» для создания кластера.Но моя проблема в том, что я не знаю, как запустить мой скрипт python-dask в кластере.Насколько я знаю, я должен создать сценарий для инициализации на dataproc, я знаю, как установить сценарий инициализации для установки conda или другого программного обеспечения или библиотек, но написание сценария таким образом, чтобы можно было запустить код daskна кластере немного расплывчато для меня.Может ли кто-нибудь объяснить пример сценария инициализации для запуска примера кода python-dask в clusetr с 1 главным узлом и 2 клиентами?

1 Ответ

0 голосов
/ 20 февраля 2019

Сервис Google DataProc - это управляемый кластер YARN.Для этого вы, вероятно, захотите использовать проект Dask Yarn .

...