Как запустить код pyspark ml в кластере gcp? - PullRequest
1 голос
/ 29 апреля 2020

Я хочу запустить проект pyspark ml (повышение деревьев) в кластере google gloud, чтобы сравнить точность и скорость с scikit, изучая ту же модель. Мой код готов, но я не знаю, как запустить его в кластер. Спасибо !!!

1 Ответ

0 голосов
/ 29 апреля 2020

Первое, что вам нужно, это кластер Datapro c. После создания кластера вы можете использовать любой из параметров, перечисленных в официальной документации здесь . Но я бы предложил один из 2 вариантов ниже.

  1. Использование gcloud dataproc jobs submit pyspark. Подробнее здесь
  2. Отправить работу через консоль Datapro c. Подробный пример: здесь
...