Что меня удивило после прочтения о RDD в spark pipe, так это то, что мы можем выполнить любой код на Python (включая машинное обучение). Код также будет выполняться в распределенном режиме.
Так что, если мы сможем выполнять код машинного обучения распределенным способом с pipeRDD, какая польза от Spark ML. Есть ли какая-то принципиальная разница между выполнением кода Python ML через spark pipeRDD против Spark ML.