Я использую Spark MLlib с Pyspark для своего задания и мне нужно доказать, что это лучше, чем традиционные методы машинного обучения. У меня есть набор данных, на котором я запускаю логистическую регрессию, и я нахожу такие метрики, как Aaccuracy, Precision, Recall и т.д. завершит выполнение быстрее, чего не должно было быть, поскольку в наборе данных много данных. Вскоре я начал копать глубже и понял, что Spark работает только с 1 работником и ему назначено только одно ядро. Поэтому я внес следующие изменения в spark-defaults.conf, поскольку у меня есть виртуальная машина с 8 VCPU и 16 ГБ ОЗУ.
spark.driver.memory 8g
spark.driver.cores 8
spark.executor.instances 8
Теперь время, затраченное Spark на выполнение кода ML на данныхзначительно сократилось. Есть ли какие-то дальнейшие оптимизации, на которые я должен обратить внимание? Я использую Spark в автономном режиме, т.е. мой мастер и рабочий - это один и тот же узел.