приложение Spark Split до 4 рабочих мест - PullRequest
0 голосов
/ 03 октября 2019

из того, что я понимаю, запускается разделение заданий с помощью операций Action и разделение этапов на основе операций перемешивания. но число полученных в результате заданий странное, эти операции разбивают приложение на 4 задания. Я совершенно не понимаю, почему, может кто-нибудь помочь объяснить причину этого?

>>>spark.read.parquet('test_parquet_file').repartition(10).filter("id==1").show()

Поскольку я не могу загрузить миниатюру, поэтому ссылка на изображение находится здесь введите описание изображения здесь Я думал, что приведенный выше код сгенерирует 2 задания, первое - это spark.read.parquet, этот шаг выглядит нормально, вторым заданием должны быть все остальные операции, объединенные вместе, потому что только show () - это действие, поэтому остальные должны бытьв одном задании и в 2 этапа, но если я изменю show () на collect (), результатом будет 2 задания, полностью совпадающих с тем, что я думал, или просто удалим средний шаг «filter ('id == 1')», затемтакже есть 2 задания, так что же происходит с этими операциями, почему результатом является 4 задания вместо 2, может ли кто-нибудь помочь объяснить результат?

...