Могу ли я запустить обычный код Python, используя обычные библиотеки ML (например, Tensorflow или sci-kit learn) в кластере Spark?Если да, может ли спарк распределить мои данные и вычисления по кластеру?если нет, то почему?
Spark использует RDD (отказоустойчивый распределенный набор данных) для распределения работы между рабочими или ведомыми устройствами. Я не думаю, что вы можете использовать свой существующий код в Python, не сильно адаптируя код к спецификации Spark, для тензорного потока есть много опций для распределения вычислений по несколькимGPUs.