Я хочу запустить проект pyspark ml (повышение деревьев) в кластере google gloud, чтобы сравнить точность и скорость с scikit, изучая ту же модель. Мой код готов, но я не знаю, как запустить его в кластер. Спасибо !!!
Первое, что вам нужно, это кластер Datapro c. После создания кластера вы можете использовать любой из параметров, перечисленных в официальной документации здесь . Но я бы предложил один из 2 вариантов ниже.
gcloud dataproc jobs submit pyspark