Я запускаю код на python. Речь идет об алгоритмах Spark Mllib. Результат дает такие этапы.
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
[Stage 20:> (0 + 32) / 32]
...
[Stage 20:============>(31 + 1) / 32]
, но он проводит слишком много времени в [Стадия 20:> (0 + 32) / 32]. Этап (0 + 32) очень долгий. Есть проблемы или это нормально? Я пробовал тот же код с небольшими данными без проблем. Но с данными большого размера дело обстоит так. Мой компьютер многопроцессорный (16 ядер). Следует ли мне добавить настройку распараллеливания или pyspark сделает это автоматически?