вы можете
- загружать данные / обрабатывать данные с помощью pyspark sql,
- , а затем переносить данные в локальный драйвер с помощью collect / topandas (узкое место в производительности)
- затемОбучите xgboost локальному драйверу
- , затем подготовьте тестовые данные как RDD,
- передайте модель xgboost на каждый раздел RDD, а затем прогнозируйте данные параллельно
Все это можетбыть в одном сценарии, вы отправляете искры, но чтобы сделать вещи более краткими, я рекомендую разделить поезд / тестирование на два сценария.
Поскольку шаги 2,3 выполняются на уровне драйвера, не используя кластерный ресурс, твой работник ничего не делает