Использование существующего кластера dataproc для запуска dask - PullRequest
1 голос
/ 09 июня 2019

У меня работает кластер dataproc на облачной платформе Google. Я намерен передать этот кластер в клиент dask вместо инициализации нового кластера dask-yarn

Однако я не могу использовать свой кластер dataproc напрямую

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

1 Ответ

2 голосов
/ 17 июня 2019

DataProc создает новый кластер Hadoop, dask-yarn предназначен для создания кластеров dask, которые работают внутри кластера hadoop (где бы это ни было).Для правильной работы требуется правильная настройка среды и конфигурации python, как и для любого другого инструмента в hadoop (включая spark).

У нас нет специального руководства по dataproc, но здесь приведено руководство по эквивалентной EMR AWS.: http://yarn.dask.org/en/latest/aws-emr.html

Для развертывания в DataProc вы, скорее всего, создадите эквивалентное действие инициализации для действия начальной загрузки EMR: https://github.com/dask/dask-yarn/blob/master/deployment_resources/aws-emr/bootstrap-dask

...